来源：贝叶斯之美随着深度学习模型（尤其是大规模生成模型）参数规模的扩张，对更高效的计算与存储方案的需求愈发强烈。降低数据类型位宽（精度）是一条行之有效的途径，但如何在降低位宽的同时保持准确度是一大挑战。在预训练过程中，用更少的比特来表示模型参数以及相关张量，已成为在不牺牲准确度的前提下提升 GPU 效率的必备技术。NVIDIA Blackwell 代 GPU 中引入的 Microscaling（MX）格式，将窄位宽浮点类型与更细粒度的按块缩放因子相结合，是这一方向的重要进展；它让更多张量可以被量化，并让对这些张量的运算更高效。 deepseek一句话引爆国产算力芯片，国产芯片迎来突围质变关键点？从产业角度来看，未来的工作远不如看起来这么简单，前路依然慢慢修远！ DeepSeek V3.1 公开点名用了 UE8M0 FP8 scale 并暗示“下一代国产芯片”协同，媒体集中报道后，A 股/港股里“国产芯片、FP8 概念”短线大涨，话题瞬间出圈。同期，部分国产 GPU/NPU 宣称“原生 FP8 / Block FP8”或工具栈可支持 FP8/MX，进一步强化了“软硬协同 → 释放带宽/功耗红利”的叙事。 UE8M0/FP8（MX）不是新概念，早在2023 年 OCP 就发布了 Microscaling（MX）v1.0（块大小 K=32、共享尺度 UE8M0 等），把“块级缩放 + 窄位宽浮点”写成了行业规范。而到了2025 年，AI芯片之王NVIDIA Blackwell 把 MXFP8/6/4 做成张量核原生数据类型，硬件里直接处理“每 32 个数一个 2^k 尺度”的逻辑（UE8M0），不再靠软件拼。官方资料与开发者博客都强调了这点。有了原生支持后，MXFP8 训练端到端吞吐≈BF16 的 2×，而不是只在内核里“纸面提速”。（论文与官方文档均有说明。）特意把相关论文翻出来看了一下，内容不多，10多页，最新论文把能稳定预训练的大模型的可复现做法讲清了：所有张量（含激活梯度）统一用 E4M3；尺度用 UE8M0，且对 log2（amax/destmax）取“向上整”，避免因溢出导致的发散——这点明确区别于 OCP v1.0 的默认取整建议。并给出 8B/15T tokens 与 BF16 等精度的实证。而其实最为关键的依然在底层的软件与算子生态，Transformer Engine、cuDNN/cuBLAS 落地了 FP8/MX 的算子与数据流；NVIDIA NeMo、TE 用户手册给出了工程路径。大模型侧的真实案例越来越多：Nemotron-H、Llama 系列等公开材料都提到用 FP8 路线（早期多为按张量缩放，如今转向更细的块缩放/MX）。甚至有 vLLM 在线 FP8 生成的路径。这些都把“训练—推理—部署”的链条打通了。生态也在跨厂蔓延（例如 ROCm 侧的 Transformer Engine），进一步提升“通用感知”。它具体解决了什么？动态范围不过载：整张量一次缩放常照顾不了“大值/小值”同时存在，容易溢出或压成 0；按块缩放能“就近对齐”，信息损失更小。带宽/显存压力小：元素 8 bit，每 32 个只加 1 字节尺度元数据；相比“每块存 FP32 尺度”，元数据流量省 75%。硬件代价低：UE8M0 只编码 2^k，移位即可，关键路径短、功耗低；对没有完整 FP8 乘加单元的芯片，落地门槛更低。为什么会给国产芯片带来利好？在国产芯片多数仍以 FP16/BF16+INT8 通路为主的阶段，引入块级缩放 + 原生/近原生 FP8的存取与算子，可以在不牺牲精度的前提下显著降带宽、提吞吐，而UE8M0“幂次缩放”的硬件代价最低，因此是合适的过渡/长期方案，虽然远达不到英伟达那样的效果，只能退而求其次，在某些端侧小场景尤其适用？ 1）UE8M0 / FP8 / MXFP8 各自是什么？ UE8M0不是“另一种FP8”，而是MX（Microscaling）格式里的“块级缩放因子”——8 bit 全给指数（E8M0），只编码2的幂，用于给同一小块（典型 K=32）里的FP8元素统一定标；这样解码只需指数移位（shift），不必做浮点乘法，硬件关键路径更短，带宽/能耗也更友好。常见误区有哪些？把 UE8M0 当成“第三种FP8”？不对。它是“缩放因子”的格式，元素依旧是 E4M3/E5M2。认为“有了UE8M0就必然大幅提速”，收益取决于硬件是否原生MX、模型是否带宽受限、以及通信/内存是否成为新瓶颈。把“75%节省”理解为“总流量减少75%”，准确说是把“每块的缩放元数据”从 32b（FP32）降为 8b（UE8M0）→ 元数据部分下降 75%；对“整体块数据”的降幅更小，但仍有利好。使用 UE8M0 FP8 scale，目的是与“微缩块格式（MX）”生态兼容；官方在外媒与社区页也提到与“新一代国产芯片”适配的取向。一个 MX 格式由：块大小 K、每块共享的缩放因子 X、块内元素的数据类型共同指定。K=32（适用于所有 MX 类型）。X 的类型是 UE8M0（8 位指数、无尾数、无符号），表示 NaN 或 2 的幂（范围 2^（−127）到 2^127）。给定源格式（通常 FP32）的 K 个数据 V_i，转换到 MX 格式时，需要计算 X 与 Q_i，使得 Q_i×X ≈ V_i。存储时写入 X 与 Q_i。Blackwell 的张量核心会消费 X 与两侧块的 Q_i 来做点积；若累加输出为 FP32，则在后续算子需要 MX 格式时再将其回量化为 MX。FP8（E4M3 / E5M2） 8位浮点的两种常用编码（1符号 + 指数 + 尾数），业界已广泛用于训练/推理。E4M3精度更高、E5M2动态范围更大。MX（Microscaling）把一个张量按固定小块（典型 K=32）切分；每块共享一个“缩放因子 X”（以幂次形式存放），块内元素用低位宽格式（如FP8）存储。这样既保留8比特的低带宽优势，又靠更细颗粒的定标获得更大的可用动态范围与更稳的数值。MX 的块尺度与元素格式相互独立。UE8M0 缩放因子的具体格式——无符号（U）、8位指数（E8）、0位尾数（M0），即只有指数，没有符号/尾数；“ExMy”记法在 OCP 规格里明确：当 y=0（如E8M0）就不含符号位。它仅表示 2 的整数幂，因此硬件解码是移位，不需浮点乘法。MXFP8 指“元素为FP8”的MX格式集合；所有MX具体格式的共享缩放，统一采用 E8M0。常用的就是“UE8M0 + FP8（E4M3/E5M2），块大小K=32”。Blackwell 支持的 MX 格式MXFP8：E4M3（最大约 1.75×2^8，最小约 2^（−9），可覆盖约 17.8 个 log2 桶），张量核相对 BF16 ~2× 吞吐。MXFP8：E5M2（更大动态范围，约 31.8 桶），张量核相对 BF16 ~2× 吞吐。MXFP6：E2M3/E3M2（~2× 吞吐）。MXFP4：E2M1（~4× 吞吐）。注：E4M3 仅有一个 NaN 比特模式；E5M2 遵循 IEEE-754 特殊值语义。指数位越多→范围越大；尾数位越多→给定范围内的精度越高。论文显示在80 亿参数、15T 词元的预训练中，观察到 MXFP8 的验证困惑度与 BF16 匹配（全程差异 <0.5%）。下游任务（MMLU、9 项推理基准）分数也相当。类似等价性在更小模型/数据上同样成立，从而使 MXFP8 成为更高效的预训练选项。模型配置：32 层 Transformer，32 头，隐藏 4096，GQA 组 8，KV 通道 128，预训练序列长 8192。学习率 6e-4 余弦衰减至 6e-6；数据混合两阶段（先多样性、后高质量），60% 处切换。训练平台：Megatron-LM；3072 张 Hopper GPU；批量 768。MX 运算通过将 BF16 输入在 GEMM 前转换为 MXFP8、GEMM 后再转回 BF16 来模拟。评测：MMLU（5-shot）、9 项通用推理（1-shot）平均分。 MXFP8 维持 BF16/FP8 级准确度；在 Blackwell 上，MXFP8 张量核吞吐 ~2×BF16，端到端预训练更快；与传统 FP8 相比，MXFP8 配方更简单（所有层均可量化，缩放由硬件处理），吞吐相当或更佳。 2）它究竟解决了什么数值&硬件问题？数值层面，传统“整张量缩放”在子8位（<8b）或极端值分布下容易溢出/压成0；按块缩放能“就近”匹配每块的幅度分布，更好覆盖大/小值，减少饱和与下溢。实证表明在多项任务里，MX 直接替代 FP32 推理、甚至用于低比特训练，也能接近/对齐 FP32/BF16 的精度。 E4M3 vs E5M2 的选型：在有了细颗粒块缩放的前提下，实践上经常统一用 E4M3（更高“采样精度”）能得到更稳的训练/下游表现；Blackwell 的 MX 训练配方也给出类似建议。硬件/系统层面 UE8M0 = 2^k→ 解码只需移位；不必做浮点乘法、规格化或舍入，缩短关键路径、利于高频设计与能耗控制。缩放元数据更轻：每块只多 8 bit 的 scale。相较“每块存一个 FP32 缩放”（32 bit），缩放元数据流量减少 75%；（整体块数据从 256b→264b 对比 256b→288b，总流量也更低）。生态对齐：NVIDIA Blackwell 已将 MXFP8/6/4 做成张量核原生数据类型（K=32、X=UE8M0），在其平台上 MXFP8 相比 BF16 的矩阵核吞吐标称 ~2×。这为上游模型与下游硬件的“共同语言”定了规。 3）为什么说它“贴合下一代国产芯片”？大多数已量产国产AI加速器仍以 FP16/BF16 + INT8 通路为主，对完整 FP8 FMA 的硬件栈支持不一；而 UE8M0 的移位解码 + 块级FP8存算，实现难度和代价更低，更符合阶段性演进路径。带宽/容量制约，更敏感的环境里，FP8+块缩放能显著降低 HBM/DDR 压力；这正是国产芯片在功耗/能效/带宽方面最希望“用算法/格式把水再挤出来”的方向。国内媒体与机构报道里，摩尔线程 MUSA 架构宣称原生 FP8 张量加速，并点名能很好支持 UE8M0 FP8 Scale；芯原 VIP9000 NPU 亦被多家产业媒体与高管采访稿提到增加 FP8（E4M3/E5M2）支持，强调与主流框架/工具链的易部署性。 DeepSeek 明确采用 UE8M0 FP8 scale，把软件侧配方与国产硬件的“最佳工作点”对齐，实际上是在构建软硬协同的一致坐标系，降低生态碎片化成本。注：具体厂商/型号是否“原生 FP8 张量核”或“Block FP8”要以官方规格书/驱动版本说明为准；媒体稿件与三方文章的口径可能滞后或存在表述差异。上文引用为公开报道与产业采访。4）它与“常规 FP8”的关系（怎么搭配用）？仍用 E4M3/E5M2（通常 E4M3 全程更稳），共享缩放用 UE8M0；典型块大小 K=32。这就是MXFP8。训练/推理常见做法：权重/激活/梯度在 GEMM/CONV 里用 MXFP8，归一化/softmax/残差等用 BF16/FP32；累加一般在 FP32，主权重常保一份 FP32 “母本”。缩放算法按块取 amax 决定指数，向上取整以避免溢出，再做饱和式量化（超过上限则钳位）。这类配方在 Blackwell 的 MX 论文里给了具体步骤与对比。 5）对模型精度与吞吐的“量化预期” 精度，在分类/语音/LLM 上，MX 直接投产/微调后能接近/对齐 FP32/BF16；对大模型的预训练，MXFP8 在合适配方下可与 BF16 等价的困惑度/下游得分。吞吐/成本，在原生支持 MX 的硬件上，矩阵核吞吐~2×BF16，端到端训练/推理时间和显存占用相应下降（真实收益取决于是否算子/带宽/通信受限）。对国内生态的实质意义有哪些？ UE8M0 FP8（MX）把模型数值配方和硬件实现成本一起优化到了“兼容 & 高效”的均衡点：更稳的精度、更低的带宽、更短的关键路径。DeepSeek 把训练/权重格式对齐到 MX 标准，等于在国产硬件侧“放下对接道钉”。随着更多芯片把 MXFP8 做成“一等公民”，软硬协同的性价比才会真正体现出来。所以，我们可以看到，UE8M0 FP8（MX）是好“格式”，能显著降低带宽/功耗、扩大可量化范围；但“效果”取决于系统工程：是否有原生 MX 张量核、是否搞定转置重量化和双副本开销、是否站在 NVLink 级互联上扩展、以及工具链是否把配方一把梭。在这些方面，NVIDIA 目前端到端更完整，所以你看到的“明显差距”本质上是平台差距，而不是“UE8M0/MX 这条路线不行”。所以，国产芯片再一次沸腾，但是我们依然需要冷静！ “有了 UE8M0 FP8（MX）格式是不是就等于立刻得到英伟达那样的实际效果”？答案是不能！差距往往不在“格式本身”，而在算子/内核、内存与互联、框架与工具链、以及标准细节的一致性。从工程角度拆开讲，可以看到哪些短板会直接吃掉我们在论文或宣传里看到的收益。 1）数值与算法：标准一致性还没“完全对齐” MX 的定义（K=32、每块共享 UE8M0 尺度、块内元素用 FP8/FP6/FP4 等）是 OCP 标准的一部分；UE8M0 只编码 2 的幂（−127…127），本身很轻量。问题是：“如何取整到 2 的幂”这件事，不同实现不完全一致。NVIDIA 的 MXFP8 训练配方里明确把尺度取整改为向上取整（ceil（log2）），并给出消融：按 OCP v1.0 建议的“向下取整”在大规模预训练里会更易溢出/发散。若硬件/软件仍按 v1.0 来做，训练稳定性就可能对不上。 E4M3 “全量化”选择：NVIDIA 的结论是权重/激活/激活梯度都用 E4M3（块缩放后需要的是精度而不是更大的指数范围），这和很多“FP8=梯度用 E5M2”的老经验不一样。配方差一口气，效果就会“看着像 MX，跑起来不像”。 2）算子与内核：没“原生 MX”就有隐性开销 MX 需要在张量核里处理很多“每块一次”的尺度。在软件里频繁处理这些缩放，非常贵；Blackwell 在硬件层把尺度取整与量化塞进张量核指令路径，才把这笔开销吃掉。没有这条硬件“捷径”，你在别家芯片上用 MX，内核层面的额外读改写/重量化会吞掉收益。转置问题：Blackwell 的 MX 要求“沿归约维的块数据连续”，训练时前后/反传会频繁换归约维；普通 FP8 转置是重排，MX 的转置要“重量化”，这在没做专门硬件/内核优化时会非常痛。双轴两份量化副本：为了同时服务行/列两条归约轴，训练框架通常需要给每个张量保两份 MX 量化版本；这既吃显存也增加数据搬运。NVIDIA 的论文和 TE 的工程 issue 都点名了这一点。 3）内存与互联：系统“地基”差异放大效果差距 NVLink / NVSwitch 的规模化优势：Blackwell 代把 NVLink 带宽拉到每 GPU 1.8 TB/s，并通过 NVLink Switch 把 72 GPU 拉进一个1.8 TB/s 保持的 NVLink 域，还能跨机柜扩展；这直接决定了FP8/MX 的带宽红利能否真正转化成集群吞吐。如果替代平台只有 PCIe 或传统以太/IB，通信相对吃紧，同样的 MX/FP8 算力优势会被All-Reduce/张量并行通信抵消。 4）生态与通用性：工具链还在“接入期” 框架 dtype 与编译工具支持未完全成熟：PyTorch 核心层面对 MX 的基础类型（比如 E8M0、FP4）仍在推进中；Triton 也有“如何在语言里暴露 MX/转置模式”的开放问题。没有一线框架的原生一等支持，通用性就会打折。跨厂商 FP8 的“细节不一致”：比如 AMD 文档就明确写到 MI300 的 FP8 编码与 H100 不同；再叠加 MX 的尺度取整差异，你在多家硬件之间迁移“同名 FP8/MX”模型，可能需要重转换/重校准才能稳定。非英伟达平台的 MX 现状：AMD：公开资料已在教程/白皮书层面引入 OCP MX 概念与 FP8 支持，但是否有“原生 MX 块缩放硬件管线”尚非标配，多为软件路径实验/过渡。Intel Gaudi：官方强调 FP8 训练/推理算力与推理教程，但并未宣称 MX 原生块缩放；若只是常规 FP8（按张量/轴缩放），与 MX 的落地复杂度与收益曲线不同。5）结果差距通常来自哪几件“最伤”的事？数值细节不一致（尺度取整、梯度格式）：训练不稳或需要更保守的超参 → 有效吞吐下降。没有“内建 MX”的张量核：尺度处理/转置重量化落在软件 → GEMM 旁路开销变大。存储/通信瓶颈：双副本显存 + 边带尺度 + 跨卡通信不足 → MX 的带宽节省兑现不了。工具链与 op 覆盖不全：某些层（嵌入/最终投影、BMM/softmax 等）仍高精度，若没对齐好执行计划，端到端收益会被“非 MX 区段”稀释。但对于夹缝中求存的国内芯片来说，这也是算是一种不多的求变模式，未来任重而道远。哪怕没有“原生 FP8 张量核”，也能通过“FP8 存取 + 快速移位解码 → 进 FP16/BF16 乘加”这条混合路径拿到带宽/显存层面的实效；硬件只需加轻量的尺度表处理与移位单元。同样的内存带宽、同样的功耗预算下，模型可以更大、批量可以更足，单位 TCO 的吞吐更好看。DeepSeek 等模型侧明确用 UE8M0 的块缩放范式，软件栈（量化、校准、推理引擎）更容易在国产芯片上做统一适配，减少“各玩各的”的碎片化成本。相比“一步到位做全功能 FP8 FMA 核”，先把 MX（按块缩放 + 移位解码）打通更现实，属于渐进式演进：第一步：推理先行（权重 FP8 + 激活 BF16/FP16，累加 FP32）；第二步：部分训练链路 FP8 化（GEMM 主干 FP8，归一化/Softmax 等保高精度）；第三步：硬件代际升级，再做原生 MX/FP8 张量核。“达不到英伟达效果，所以只是退而求其次、更适合端侧小场景？” U1S1，当前确实存在差距：没有“原生 MX”张量核、没有高带宽互联（NVLink/NVSwitch 同级）、算子/框架支持不全时，UE8M0/FP8 的纸面优势会被内核开销和通信瓶颈吃掉。这是当下不少平台的现实。但不等于“只能端侧”：数据中心也能受益，前提是把块缩放和尺度处理放进内核，减少“量化—反量化”的来回；很多国产方案在推理端已能落地这条混合路径。端侧/边缘当然更“对味”——内存窄、功耗紧的地方，UE8M0+FP8 的带宽/能耗收益会更直接、更稳定；比如嵌入式大语言模型、语音/视觉边端模型、AI PC 的本地推理。策略不是“退而求其次”，而是“先吃确定性红利”：先把存取与带宽这半边红利吃干净，再逐步把计算路径FP8 化。什么时候用它“最划算”？推理优先：LLM、ASR、CV 大模型的权重 FP8（块缩放）+ 激活 16bit + FP32 累加；大幅降显存与权重带宽，延迟/吞吐普遍可见改善。训练试点：中小规模预训练/继续训练（SFT/蒸馏/LoRA），GEMM 主干用 MXFP8，归一化/Softmax 等保高精度，先跑稳定再扩规模。带宽/功耗受限：AI PC/边缘盒子/嵌入式 SoC，压住功耗同时把模型体量拉上去。所以，UE8M0 FP8（MX）= 低带宽 + 低实现门槛 + 足够稳的数值，对当下仍以 FP16/BF16+INT8 为主的国产芯片，是一条现实且渐进的增量路线。不是只能端侧，但端侧/功耗敏感场景的“性价比提升”最立竿见影；数据中心要想接近头部效果，需要算子级融合、块缩放下沉到内核、以及更好的互联带宽。先把权重/存取的红利吃到，再推进计算路径与互联，这条路能走通，而且短期就有肉吃。全文完。

上海召开民营经济圆桌会打造高质量民营孵化器

「活动」Xiaozihhqfdeyitian

9.35MB

版本V3.8.83

下载APK 高速下载

下载原神1❌8禁视频㊙️网站安装你想要的应用更方便更快捷发现更多

83%好评(58558人)

详细信息

软件大小: 10876.77476MB
最后更新: 2025-09-06 21:26:59
最新版本: V7.32894.9
文件格式: apk
应用分类:ios-Android 彼❌女诊治动漫免🔞费观看
使用语言: 中文
: 需要联网
系统要求: 7.66201以上

应用介绍

一，爱莉希雅R1❌8禁同🔞人污本㊙️子，人C❌交Z000Z000XX㊙️Ⅹ全过
二，胡列❌娜🔞玉腿翘起娇喘连连，❌火🔞影忍者琳裸体
三，护士❌长双乳🔞被揉的又大又硬，沈娜娜麻❌豆md㊙️0078
四，❌小黄书网站入口㊙️漫画，白袜女❌同学的㊙️脚
五，한국섹❌스🔞동㊙️영상，搡60一❌7🔞0㊙️岁的老女人
六，免费观❌看🔞mv大片高清,九色丨❌P🔞ORN丨㊙️蝌蚪|自拍，日本❌・🔞人妻の亂倫
七，❌嫩苞XX㊙️XXX偷拍
【联系我们】
客服热线：134-2881-646

加载更多

版本更新

V6.1.54

孟子❌义洗澡时被c到高㊙️潮小说

爽❌⋯🔞好大⋯快⋯深点Hsm调教视㊙️频

男男Gay互吃鸣巴吞❌精小🔞说㊙️

48439.28MB

104好评

中国体育生男男❌Gay自慰㊙️网站
白❌鹿扒开内🔞裤露出尿孔

❌成人专属㊙️游戏

30496.85MB

036679好评

❌金玟庭穿情趣🔞内衣被c到高潮
在❌健身🔞房被C到高潮视频

男人❌伸进去🔞什㊙️么感觉

13.13MB

316好评

国产美女❌精品视频国㊙️产AV红豆
chin❌ese熟女🔞老女人hd㊙️视频

洛天❌依🔞爆㊙️乳下裸自慰

53.09MB

279好评

Japa❌ne🔞se 偷窥㊙️自慰
R星污污❌污w🔞ww

泰❌勒裸爱被视频无🔞码

71.36MB

709好评

丝袜❌老师用🔞脚夹我好爽
女人被❌扒开🔞腿做爰视频

narutoa❌ndhinat🔞aPIXXX小南

83.68MB

337好评

国产❌A级🔞特黄㊙️的片子
❌1🔞8+动漫

体育生高H纯❌肉G🔞ay文㊙️

23.80MB

103好评

❌女同做爰猛烈㊙️叫
武藤兰❌在线AV免费播㊙️放

不知❌火舞裸㊙️体自慰

50.65MB

927好评

日❌本一级婬片A片少妇㊙️
亚洲国产精品嫩草❌影院久久AV㊙️

少年骇❌客游🔞戏大全

83.55MB

560好评

巨大胸⋯啊❌⋯🔞嗯摸湿奶头日本片
福❌彩🔞3d️d综合㊙️版

be❌egXXXX🔞日本㊙️老师

83.93MB

753好评

❌国产成人无码精🔞品色欲天㊙️香
极品少妇婬乱A片❌视频🔞软件㊙️

G❌ay白袜🔞男强制捆绑视频网站

74.55MB

2564好评

放荡n❌p高H校🔞园教室H㊙️
王者妲❌己🔞李白同㊙️人

❌藕饼h㊙️文

54.53MB

445好评

少妇扒❌开腿狂🔞桶3㊙️0分钟
高柳の肉❌嫁🔞动漫未删减版

爽⋯躁多❌水⋯快⋯深㊙️点快斗

65.95MB

742好评

张❌津瑜被扣的都🔞合不上
少妇❌精品视频一码二🔞码三㊙️

雷❌电将军被揉🔞下部㊙️

54.04MB

757好评

少妇被❌又大🔞又粗又爽毛片欧美
❌男男暴菊无套G🔞ay高清观看视频

❌eva真希波本子全彩h㊙️

57.82MB

680好评

❌美国红脖子教小孩打㊙️枪
温迪撅着屁❌股🔞让我c

国产❌精品🔞久久久久久久精品㊙️

24.17MB

352好评

云韵爽⋯❌好大⋯快🔞⋯深萧战
▓成❌人涩涩屋视频▓㊙️无码

❌泽村玲子㊙️作品在线播放

13.73MB

311好评

云悠悠脱❌了内裤打🔞开腿让人躁
❌jap🔞anလိုး

女明星❌跪趴🔞撅㊙️着给人玩弄h

84.56MB

218好评

苹果带颜色伪装a❌pp推荐㊙️
梦见月瑞希同人,❌要🔞生了㊙️

Да❌ва🔞й熟女

45.01MB

733好评

涂❌山雅雅被各种姿势c到高潮㊙️
孕妇性XXX❌XX🔞孕交㊙️体内谢

76❌039纯情广告㊙️

10.26MB

185好评

❌蒂🔞法3d被啪到呻吟喷水
原神万叶❌裸体露j网㊙️站

❌美女四🔞肢被绑在床挠痒痒

44.27MB

369好评

蝴蝶❌忍被扒🔞开双腿玩弄小说㊙️
老❌熟女卖婬㊙️XXXXⅩ

旧里番理论片y❌y60🔞80㊙️影院

91.96MB

207好评

拉屎p❌oop🔞ing10
男人❌被扒开腿狂🔞躁c到高㊙️潮

女学生❌小嫩嫩裸体㊙️

30.77MB

903好评

欧美最❌婬🔞妇无码视频免费㊙️看
yaoi ga❌me v🔞i㊙️ew

❌杰克把奈布的肚子㊙️撑满

30.85MB

547好评

亲嘴扒胸摸❌屁股免费视频🔞日本网站
亚洲AV无码桃乃木❌香奈88下㊙️载

禁止18小❌蝌蚪xkdsp看片无限制版视㊙️频

29.42MB

129好评

❌加强男士㊙️内裤vk
日本十❌八🔞禁视㊙️频无遮挡

❌琳妮特被㊙️扒开粉嫩的屁股

70.09MB

459好评

jiZZ日❌本少🔞妇高潮出水㊙️
❌女主🔞播钟淑32部在线视频 title="❌BlACKED raw🔞 HD vi㊙️deos" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

❌进入森林后被㊙️藤蔓侵犯

宁红夜眼睛瞎❌了🔞的㊙️原因

详情
女人脱❌精光扒开免🔞费视频 title="精东a❌ⅴ一二三天美🔞传媒" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

好❌爽⋯好紧⋯宝贝别🔞夹㊙️说说

❌被男同桌强摁🔞做开腿呻吟作文

详情
❌萝萌社ap㊙️p title="91人妻人人做❌人人爽🔞男同㊙️" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

色❌情免费�7�🔞7无码�7�7

冲田杏❌梨H2无删减㊙️版播放

详情