2025-09-06 14:03:51 8,644次浏览

来源:贝叶斯之美 随着深度学习模型(尤其是大规模生成模型)参数规模的扩张,对更高效的计算与存储方案的需求愈发强烈。降低数据类型位宽(精度)是一条行之有效的途径,但如何在降低位宽的同时保持准确度是一大挑战。 在预训练过程中,用更少的比特来表示模型参数以及相关张量,已成为在不牺牲准确度的前提下提升 GPU 效率的必备技术。NVIDIA Blackwell 代 GPU 中引入的 Microscaling(MX)格式,将窄位宽浮点类型与更细粒度的按块缩放因子相结合,是这一方向的重要进展;它让更多张量可以被量化,并让对这些张量的运算更高效。 deepseek一句话引爆国产算力芯片,国产芯片迎来突围质变关键点?从产业角度来看,未来的工作远不如看起来这么简单,前路依然慢慢修远! DeepSeek V3.1 公开点名用了 UE8M0 FP8 scale 并暗示“下一代国产芯片”协同,媒体集中报道后,A 股/港股里“国产芯片、FP8 概念”短线大涨,话题瞬间出圈。同期,部分国产 GPU/NPU 宣称“原生 FP8 / Block FP8”或工具栈可支持 FP8/MX,进一步强化了“软硬协同 → 释放带宽/功耗红利”的叙事。 UE8M0/FP8(MX)不是新概念,早在2023 年 OCP 就发布了  Microscaling(MX)v1.0(块大小 K=32、共享尺度 UE8M0 等),把“块级缩放 + 窄位宽浮点”写成了行业规范。而到了2025 年,AI芯片之王NVIDIA  Blackwell 把 MXFP8/6/4 做成张量核原生数据类型,硬件里直接处理“每 32 个数一个 2^k 尺度”的逻辑(UE8M0),不再靠软件拼。官方资料与开发者博客都强调了这点。有了原生支持后,MXFP8 训练端到端吞吐≈BF16 的 2×,而不是只在内核里“纸面提速”。(论文与官方文档均有说明。)特意把相关论文翻出来看了一下,内容不多,10多页,最新论文把能稳定预训练的大模型的可复现做法讲清了:所有张量(含激活梯度)统一用 E4M3;尺度用 UE8M0,且对 log2(amax/destmax) 取“向上整”,避免因溢出导致的发散——这点明确区别于 OCP v1.0 的默认取整建议。并给出 8B/15T tokens 与 BF16 等精度的实证。 而其实最为关键的依然在底层的软件与算子生态,Transformer Engine、cuDNN/cuBLAS 落地了 FP8/MX 的算子与数据流;NVIDIA NeMo、TE 用户手册给出了工程路径。 大模型侧的真实案例越来越多:Nemotron-H、Llama 系列等公开材料都提到用 FP8 路线(早期多为按张量缩放,如今转向更细的块缩放/MX)。甚至有 vLLM 在线 FP8 生成的路径。这些都把“训练—推理—部署”的链条打通了。生态也在跨厂蔓延(例如 ROCm 侧的 Transformer Engine),进一步提升“通用感知”。 它具体解决了什么?动态范围不过载:整张量一次缩放常照顾不了“大值/小值”同时存在,容易溢出或压成 0;按块缩放能“就近对齐”,信息损失更小。带宽/显存压力小:元素 8 bit,每 32 个只加 1 字节尺度元数据;相比“每块存 FP32 尺度”,元数据流量省 75%。硬件代价低:UE8M0 只编码 2^k,移位即可,关键路径短、功耗低;对没有完整 FP8 乘加单元的芯片,落地门槛更低。为什么会给国产芯片带来利好?在国产芯片多数仍以 FP16/BF16+INT8 通路为主的阶段,引入块级缩放 + 原生/近原生 FP8的存取与算子,可以在不牺牲精度的前提下显著降带宽、提吞吐,而UE8M0“幂次缩放”的硬件代价最低,因此是合适的过渡/长期方案,虽然远达不到英伟达那样的效果,只能退而求其次,在某些端侧小场景尤其适用? 1)UE8M0 / FP8 / MXFP8 各自是什么? UE8M0不是“另一种FP8”,而是MX(Microscaling)格式里的“块级缩放因子”——8 bit 全给指数(E8M0),只编码2的幂,用于给同一小块(典型 K=32)里的FP8元素统一定标;这样解码只需指数移位(shift),不必做浮点乘法,硬件关键路径更短,带宽/能耗也更友好。 常见误区有哪些?把 UE8M0 当成“第三种FP8”?不对。它是“缩放因子”的格式,元素依旧是 E4M3/E5M2。认为“有了UE8M0就必然大幅提速”,收益取决于硬件是否原生MX、模型是否带宽受限、以及通信/内存是否成为新瓶颈。把“75%节省”理解为“总流量减少75%”,准确说是把“每块的缩放元数据”从 32b(FP32)降为 8b(UE8M0)→ 元数据部分下降 75%;对“整体块数据”的降幅更小,但仍有利好。使用 UE8M0 FP8 scale,目的是与“微缩块格式(MX)”生态兼容;官方在外媒与社区页也提到与“新一代国产芯片”适配的取向。一个 MX 格式由:块大小 K、每块共享的缩放因子 X、块内元素的数据类型共同指定。K=32(适用于所有 MX 类型)。X 的类型是 UE8M0(8 位指数、无尾数、无符号),表示 NaN 或 2 的幂(范围 2^(−127) 到 2^127)。 给定源格式(通常 FP32)的 K 个数据 V_i,转换到 MX 格式时,需要计算 X 与 Q_i,使得 Q_i×X ≈ V_i。存储时写入 X 与 Q_i。Blackwell 的张量核心会消费 X 与两侧块的 Q_i 来做点积;若累加输出为 FP32,则在后续算子需要 MX 格式时再将其回量化为 MX。FP8(E4M3 / E5M2) 8位浮点的两种常用编码(1符号 + 指数 + 尾数),业界已广泛用于训练/推理。E4M3精度更高、E5M2动态范围更大。MX(Microscaling) 把一个张量按固定小块(典型 K=32)切分;每块共享一个“缩放因子 X”(以幂次形式存放),块内元素用低位宽格式(如FP8)存储。这样既保留8比特的低带宽优势,又靠更细颗粒的定标获得更大的可用动态范围与更稳的数值。MX 的块尺度与元素格式相互独立。UE8M0 缩放因子的具体格式——无符号(U)、8位指数(E8)、0位尾数(M0),即只有指数,没有符号/尾数;“ExMy”记法在 OCP 规格里明确:当 y=0(如E8M0)就不含符号位。它仅表示 2 的整数幂,因此硬件解码是移位,不需浮点乘法。MXFP8 指“元素为FP8”的MX格式集合;所有MX具体格式的共享缩放,统一采用 E8M0。常用的就是“UE8M0 + FP8(E4M3/E5M2),块大小K=32”。Blackwell 支持的 MX 格式MXFP8:E4M3(最大约 1.75×2^8,最小约 2^(−9),可覆盖约 17.8 个 log2 桶),张量核相对 BF16 ~2× 吞吐。MXFP8:E5M2(更大动态范围,约 31.8 桶),张量核相对 BF16 ~2× 吞吐。MXFP6:E2M3/E3M2(~2× 吞吐)。MXFP4:E2M1(~4× 吞吐)。 注:E4M3 仅有一个 NaN 比特模式;E5M2 遵循 IEEE-754 特殊值语义。指数位越多→范围越大;尾数位越多→给定范围内的精度越高。论文显示在80 亿参数、15T 词元的预训练中,观察到 MXFP8 的验证困惑度与 BF16 匹配(全程差异 <0.5%)。下游任务(MMLU、9 项推理基准)分数也相当。类似等价性在更小模型/数据上同样成立,从而使 MXFP8 成为更高效的预训练选项。 模型配置:32 层 Transformer,32 头,隐藏 4096,GQA 组 8,KV 通道 128,预训练序列长 8192。学习率 6e-4 余弦衰减至 6e-6;数据混合两阶段(先多样性、后高质量),60% 处切换。 训练平台:Megatron-LM;3072 张 Hopper GPU;批量 768。MX 运算通过将 BF16 输入在 GEMM 前转换为 MXFP8、GEMM 后再转回 BF16 来模拟。 评测:MMLU(5-shot)、9 项通用推理(1-shot)平均分。 MXFP8 维持 BF16/FP8 级准确度;在 Blackwell 上,MXFP8 张量核吞吐 ~2×BF16,端到端预训练更快;与传统 FP8 相比,MXFP8 配方更简单(所有层均可量化,缩放由硬件处理),吞吐相当或更佳。 2)它究竟解决了什么数值&硬件问题? 数值层面,传统“整张量缩放”在子8位(<8b)或极端值分布下容易溢出/压成0;按块缩放能“就近”匹配每块的幅度分布,更好覆盖大/小值,减少饱和与下溢。实证表明在多项任务里,MX 直接替代 FP32 推理、甚至用于低比特训练,也能接近/对齐 FP32/BF16 的精度。 E4M3 vs E5M2 的选型:在有了细颗粒块缩放的前提下,实践上经常统一用 E4M3(更高“采样精度”)能得到更稳的训练/下游表现;Blackwell 的 MX 训练配方也给出类似建议。 硬件/系统层面 UE8M0 = 2^k→ 解码只需移位;不必做浮点乘法、规格化或舍入,缩短关键路径、利于高频设计与能耗控制。 缩放元数据更轻:每块只多 8 bit 的 scale。相较“每块存一个 FP32 缩放”(32 bit),缩放元数据流量减少 75%;(整体块数据从 256b→264b 对比 256b→288b,总流量也更低)。 生态对齐:NVIDIA Blackwell 已将 MXFP8/6/4 做成张量核原生数据类型(K=32、X=UE8M0),在其平台上 MXFP8 相比 BF16 的矩阵核吞吐标称 ~2×。这为上游模型与下游硬件的“共同语言”定了规。 3)为什么说它“贴合下一代国产芯片”? 大多数已量产国产AI加速器仍以 FP16/BF16 + INT8 通路为主,对完整 FP8 FMA 的硬件栈支持不一;而 UE8M0 的移位解码 + 块级FP8存算,实现难度和代价更低,更符合阶段性演进路径。 带宽/容量制约,更敏感的环境里,FP8+块缩放能显著降低 HBM/DDR 压力;这正是国产芯片在功耗/能效/带宽方面最希望“用算法/格式把水再挤出来”的方向。 国内媒体与机构报道里,摩尔线程 MUSA 架构宣称原生 FP8 张量加速,并点名能很好支持 UE8M0 FP8 Scale;芯原 VIP9000 NPU 亦被多家产业媒体与高管采访稿提到增加 FP8(E4M3/E5M2)支持,强调与主流框架/工具链的易部署性。 DeepSeek 明确采用 UE8M0 FP8 scale,把软件侧配方与国产硬件的“最佳工作点”对齐,实际上是在构建软硬协同的一致坐标系,降低生态碎片化成本。注:具体厂商/型号是否“原生 FP8 张量核”或“Block FP8”要以官方规格书/驱动版本说明为准;媒体稿件与三方文章的口径可能滞后或存在表述差异。上文引用为公开报道与产业采访。4)它与“常规 FP8”的关系(怎么搭配用)? 仍用 E4M3/E5M2(通常 E4M3 全程更稳),共享缩放用 UE8M0;典型块大小 K=32。这就是MXFP8。训练/推理常见做法:权重/激活/梯度在 GEMM/CONV 里用 MXFP8,归一化/softmax/残差等用 BF16/FP32;累加一般在 FP32,主权重常保一份 FP32 “母本”。缩放算法按块取 amax 决定指数,向上取整以避免溢出,再做饱和式量化(超过上限则钳位)。这类配方在 Blackwell 的 MX 论文里给了具体步骤与对比。 5)对模型精度与吞吐的“量化预期” 精度,在分类/语音/LLM 上,MX 直接投产/微调后能接近/对齐 FP32/BF16;对大模型的预训练,MXFP8 在合适配方下可与 BF16 等价的困惑度/下游得分。 吞吐/成本,在原生支持 MX 的硬件上,矩阵核吞吐~2×BF16,端到端训练/推理时间和显存占用相应下降(真实收益取决于是否算子/带宽/通信受限)。 对国内生态的实质意义有哪些? UE8M0 FP8(MX)把模型数值配方和硬件实现成本一起优化到了“兼容 & 高效”的均衡点:更稳的精度、更低的带宽、更短的关键路径。DeepSeek 把训练/权重格式对齐到 MX 标准,等于在国产硬件侧“放下对接道钉”。随着更多芯片把 MXFP8 做成“一等公民”,软硬协同的性价比才会真正体现出来。 所以,我们可以看到,UE8M0 FP8(MX)是好“格式”,能显著降低带宽/功耗、扩大可量化范围;但“效果”取决于系统工程:是否有原生 MX 张量核、是否搞定转置重量化和双副本开销、是否站在 NVLink 级互联上扩展、以及工具链是否把配方一把梭。在这些方面,NVIDIA 目前端到端更完整,所以你看到的“明显差距”本质上是平台差距,而不是“UE8M0/MX 这条路线不行”。 所以,国产芯片再一次沸腾,但是我们依然需要冷静! “有了 UE8M0 FP8(MX)格式是不是就等于立刻得到英伟达那样的实际效果”? 答案是不能!差距往往不在“格式本身”,而在算子/内核、内存与互联、框架与工具链、以及标准细节的一致性。从工程角度拆开讲,可以看到哪些短板会直接吃掉我们在论文或宣传里看到的收益。 1)数值与算法:标准一致性还没“完全对齐” MX 的定义(K=32、每块共享 UE8M0 尺度、块内元素用 FP8/FP6/FP4 等)是 OCP 标准的一部分;UE8M0 只编码 2 的幂(−127…127),本身很轻量。问题是:“如何取整到 2 的幂”这件事,不同实现不完全一致。NVIDIA 的 MXFP8 训练配方里明确把尺度取整改为向上取整(ceil(log2)),并给出消融:按 OCP v1.0 建议的“向下取整”在大规模预训练里会更易溢出/发散。若硬件/软件仍按 v1.0 来做,训练稳定性就可能对不上。 E4M3 “全量化”选择:NVIDIA 的结论是权重/激活/激活梯度都用 E4M3(块缩放后需要的是精度而不是更大的指数范围),这和很多“FP8=梯度用 E5M2”的老经验不一样。配方差一口气,效果就会“看着像 MX,跑起来不像”。 2)算子与内核:没“原生 MX”就有隐性开销 MX 需要在张量核里处理很多“每块一次”的尺度。在软件里频繁处理这些缩放,非常贵;Blackwell 在硬件层把尺度取整与量化塞进张量核指令路径,才把这笔开销吃掉。没有这条硬件“捷径”,你在别家芯片上用 MX,内核层面的额外读改写/重量化会吞掉收益。 转置问题:Blackwell 的 MX 要求“沿归约维的块数据连续”,训练时前后/反传会频繁换归约维;普通 FP8 转置是重排,MX 的转置要“重量化”,这在没做专门硬件/内核优化时会非常痛。 双轴两份量化副本:为了同时服务行/列两条归约轴,训练框架通常需要给每个张量保两份 MX 量化版本;这既吃显存也增加数据搬运。NVIDIA 的论文和 TE 的工程 issue 都点名了这一点。 3)内存与互联:系统“地基”差异放大效果差距 NVLink / NVSwitch 的规模化优势:Blackwell 代把 NVLink 带宽拉到每 GPU 1.8 TB/s,并通过 NVLink Switch 把 72 GPU 拉进一个1.8 TB/s 保持的 NVLink 域,还能跨机柜扩展;这直接决定了FP8/MX 的带宽红利能否真正转化成集群吞吐。如果替代平台只有 PCIe 或传统以太/IB,通信相对吃紧,同样的 MX/FP8 算力优势会被All-Reduce/张量并行通信抵消。 4)生态与通用性:工具链还在“接入期” 框架 dtype 与编译工具支持未完全成熟:PyTorch 核心层面对 MX 的基础类型(比如 E8M0、FP4)仍在推进中;Triton 也有“如何在语言里暴露 MX/转置模式”的开放问题。没有一线框架的原生一等支持,通用性就会打折。 跨厂商 FP8 的“细节不一致”:比如 AMD 文档就明确写到 MI300 的 FP8 编码与 H100 不同;再叠加 MX 的尺度取整差异,你在多家硬件之间迁移“同名 FP8/MX”模型,可能需要重转换/重校准才能稳定。 非英伟达平台的 MX 现状:AMD:公开资料已在教程/白皮书层面引入 OCP MX 概念与 FP8 支持,但是否有“原生 MX 块缩放硬件管线”尚非标配,多为软件路径实验/过渡。Intel Gaudi:官方强调 FP8 训练/推理算力与推理教程,但并未宣称 MX 原生块缩放;若只是常规 FP8(按张量/轴缩放),与 MX 的落地复杂度与收益曲线不同。5)结果差距通常来自哪几件“最伤”的事?数值细节不一致(尺度取整、梯度格式):训练不稳或需要更保守的超参 → 有效吞吐下降。没有“内建 MX”的张量核:尺度处理/转置重量化落在软件 → GEMM 旁路开销变大。存储/通信瓶颈:双副本显存 + 边带尺度 + 跨卡通信不足 → MX 的带宽节省兑现不了。工具链与 op 覆盖不全:某些层(嵌入/最终投影、BMM/softmax 等)仍高精度,若没对齐好执行计划,端到端收益会被“非 MX 区段”稀释。但对于夹缝中求存的国内芯片来说,这也是算是一种不多的求变模式,未来任重而道远。 哪怕没有“原生 FP8 张量核”,也能通过“FP8 存取 + 快速移位解码 → 进 FP16/BF16 乘加”这条混合路径拿到带宽/显存层面的实效;硬件只需加轻量的尺度表处理与移位单元。同样的内存带宽、同样的功耗预算下,模型可以更大、批量可以更足,单位 TCO 的吞吐更好看。DeepSeek 等模型侧明确用 UE8M0 的块缩放范式,软件栈(量化、校准、推理引擎)更容易在国产芯片上做统一适配,减少“各玩各的”的碎片化成本。相比“一步到位做全功能 FP8 FMA 核”,先把 MX(按块缩放 + 移位解码)打通更现实,属于渐进式演进:第一步:推理先行(权重 FP8 + 激活 BF16/FP16,累加 FP32);第二步:部分训练链路 FP8 化(GEMM 主干 FP8,归一化/Softmax 等保高精度);第三步:硬件代际升级,再做原生 MX/FP8 张量核。“达不到英伟达效果,所以只是退而求其次、更适合端侧小场景?” U1S1,当前确实存在差距:没有“原生 MX”张量核、没有高带宽互联(NVLink/NVSwitch 同级)、算子/框架支持不全时,UE8M0/FP8 的纸面优势会被内核开销和通信瓶颈吃掉。这是当下不少平台的现实。 但不等于“只能端侧”:数据中心也能受益,前提是把块缩放和尺度处理放进内核,减少“量化—反量化”的来回;很多国产方案在推理端已能落地这条混合路径。端侧/边缘当然更“对味”——内存窄、功耗紧的地方,UE8M0+FP8 的带宽/能耗收益会更直接、更稳定;比如嵌入式大语言模型、语音/视觉边端模型、AI PC 的本地推理。策略不是“退而求其次”,而是“先吃确定性红利”:先把存取与带宽这半边红利吃干净,再逐步把计算路径FP8 化。什么时候用它“最划算”?推理优先:LLM、ASR、CV 大模型的权重 FP8(块缩放)+ 激活 16bit + FP32 累加;大幅降显存与权重带宽,延迟/吞吐普遍可见改善。训练试点:中小规模预训练/继续训练(SFT/蒸馏/LoRA),GEMM 主干用 MXFP8,归一化/Softmax 等保高精度,先跑稳定再扩规模。带宽/功耗受限:AI PC/边缘盒子/嵌入式 SoC,压住功耗同时把模型体量拉上去。所以,UE8M0 FP8(MX)= 低带宽 + 低实现门槛 + 足够稳的数值,对当下仍以 FP16/BF16+INT8 为主的国产芯片,是一条现实且渐进的增量路线。 不是只能端侧,但端侧/功耗敏感场景的“性价比提升”最立竿见影;数据中心要想接近头部效果,需要算子级融合、块缩放下沉到内核、以及更好的互联带宽。先把权重/存取的红利吃到,再推进计算路径与互联,这条路能走通,而且短期就有肉吃。 全文完。

重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?
重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?

锂电龙头企业迎来扩产

「活动」Xiaozihhqfdeyitian

4.96MB
版本V2.2.52
下载肖战❌ai换脸18㊙️禁安装你想要的应用 更方便 更快捷 发现更多
喜欢 29%好评(53167人)
评论 70
重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?截图0 重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?截图1 重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?截图2 重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?截图3 重磅深度:引爆国产算力芯片的UE8M0 FP8是什么?截图4
详细信息
  • 软件大小: 56192.80699MB
  • 最后更新: 2025-09-06 14:03:51
  • 最新版本: V8.64480.8
  • 文件格式: apk
  • 应用分类:ios-Android 金珍妮的婬肉泬❌c下🔞不了床
  • 使用语言: 中文
  • : 需要联网
  • 系统要求: 2.13443以上
应用介绍
一,❌小🔞樱同人动漫网站,啊轻点❌灬太🔞粗嗯太深了快三㊙️
二,日韩❌美女18seXX㊙️Ⅹ,❌tu963.c🔞om美女图片
三,萧❌炎把纳兰嫣然C到高潮㊙️,❌少妇高潮喷🔞水久㊙️久久影院
四,❌班花穿白🔞丝夹震蛋上课被㊙️狂c小说,金志❌垣为什㊙️么叫魅魔
五,❌美女放🔞屁的网站,别c我了~❌C🔞烂了~啊~视频
六,性XXX❌浓🔞毛老妇胖老太,欧美成人❌3D㊙️精品性动漫在线,❌co🔞s纳西妲裸㊙️体自慰
七,吃瓜❌黑料AV㊙️
【联系我们】
客服热线:134-2881-646
加载更多
版本更新
V8.0.76
被闺蜜绑起❌来玩尿孔v🔞kcom
  • 无畏❌契约女角色🔞裸身

    护士张❌开双🔞腿自慰流白浆

    被室友粗大❌jib捣出了白🔞浆微博

    10327.39MB
    105好评

    丁❌程🔞鑫被㊙️严浩翔c到尿

  • 歪❌歪漫画韩漫免费网站㊙️

    糖心Vlog❌精品一区㊙️二区在线

    日本❌无遮挡裸光屁🔞屁打屁股

    69655.54MB
    925404好评

    小舞扒❌开腿让我🔞桶个够揉㊙️个够

  • 波❌霸巨爆乳无码🔞视频在㊙️线

    欧❌美p🔞ure18video

    白丝玉足娇喘❌抽搐喷潮免费🔞观看㊙️

    13.55MB
    319好评

    男男Ga❌y做受XXXⅩ呻吟小🔞说

  • ❌性欧🔞美ⅩXX1819内谢HD

    电❌影院被陌生人揉湿出水㊙️好紧

    ❌路🔞飞女㊙️帝汉库克同人图

    53.99MB
    270好评

    魏大❌勋啊~🔞别顶㊙️那

  • ❌七🔞海千秋去衣服18禁

    Gay2❌022.🔞网站入㊙️口

    捏住两个奶❌头调🔞教

    71.63MB
    707好评

    100%❌无🔞掩挡㊙️在线

  • 梦见❌月🔞瑞希被史莱㊙️姆咬是吉兆吗

    M❌M13🔞1丰满少妇人体欣赏图

    ❌日本做🔞爰高潮又黄又爽

    83.85MB
    334好评

    无码国产❌AV精品一区二㊙️区

  • 美女A❌AA少🔞妇AAA㊙️高清

    ❌免费看抖抈app㊙️入口

    美❌女摸自🔞己内裤摸出水

    23.85MB
    105好评

    把腿张开~我要❌放🔞冰块视频

  • ❌被触手🔞怪扒开双腿侵犯

    久久久❌久久久🔞久久久㊙️久久久免费看

    刚手被爆❌乳喷自🔞慰爽

    50.86MB
    926好评

    电锯人玛奇玛奖励电❌次🔞原版视频

  • 免❌费叼嘿视频软件大全㊙️

    ❌古见同学同人18禁黄㊙️漫

    ❌色情性黄17🔞c㊙️片麻豆AV

    83.65MB
    565好评

    办公室❌撕开奶🔞罩㖻吮㊙️奶小说

  • ❌传说之下猹露㊙️出奶头

    www.蓝莓❌视频🔞.com

    手机版第❌一🔞页幻想影院

    83.32MB
    759好评

    RylsK❌yArt裸体㊙️全身

  • 日本熟妇乄Ⅹ❌乄日本少妇视频护士㊙️

    老师不小心❌露🔞出奶头偷拍图片

    ❌碧蓝🔞档案趴姿㊙️兔女郎皮肤

    99.66MB
    0649好评

    格雷黑化❌了第三㊙️集

  • 漂❌泊小南🔞黄㊙️化

    ❌国产9🔞1玉足榨精在线播放

    米塔同人游戏18❌网🔞站㊙️

    21.72MB
    907好评

    ❌黑神话女角色裸体㊙️

  • 女人下面❌流🔞白浆㊙️的视频

    爱情岛论坛亚洲www永久❌入🔞口㊙️

    老婆❌的黑桃🔞纹身㊙️原文免费阅读小说

    65.56MB
    747好评

    ⅩX❌XXX🔞69日本老师HD

  • ❌美女🔞脱内衣看奶头漫画

    性猛❌交娇小69🔞HD

    鸣人❌吃🔞佐助大狙

    54.44MB
    754好评

    ❌娜美吃路飞㊙️棍子原文

  • Tayl❌o🔞rswift裸体无码

    鼬❌被🔞cao到高潮求饶失禁

    ❌原神同人游戏软🔞件链接

    57.95MB
    683好评

    ❌健身教练巨大粗爽Gay视㊙️频

  • 爱你❌的🔞人最明显的表㊙️现

    敖❌润屈辱张开腿🔞任人玩弄小说

    ファッ❌ク猛乳市来美保3㊙️

    24.30MB
    356好评

    人❌獸交X🔞XXⅩ欧美大片男男

  • 布洛❌莉🔞娅

    ❌原神女角色㊙️乳液狂喷图

    安❌吉莉🔞卡被躁57分钟无删减

    13.71MB
    315好评

    小南❌光屁股撅🔞着被c

  • ❌AI国漫女神全捰照图🔞片㊙️

    ❌3d成人🔞H桌㊙️角自慰

    ❌喜🔞欢男㊙️人鳮巴

    84.83MB
    218好评

    男男无❌码🔞sm调教GV网站

  • ❌brazz🔞ershd高清

    偷拍❌女🔞宿舍换胸罩

    苹果带颜色伪装a❌pp推荐㊙️

    45.64MB
    736好评

    ❌直男腹肌体🔞育生自慰

  • 裸体美女❌调🔞教挠乳尖v㊙️k

    ❌王昭君🔞全皮肤㊙️裸妆

    孕妇疯❌狂做爰高潮抽搐视频㊙️

    10.79MB
    183好评

    揉❌我胸🔞⋯啊⋯嗯~喷水了宁荣荣

  • 牛牛热免❌费🔞视频在㊙️线观看free

    卡尔蜜拉乳液狂❌喷屁股大🔞胸图

    日本❌亲🔞子乱婬A片在线

    44.55MB
    360好评

    巨胸爆乳❌露双🔞奶头被调教

  • ❌XXX🔞Dan-免㊙️费XXX视频

    ❌fnfgf黄模组㊙️18+

    ❌熟女露脸91🔞P0rn

    91.90MB
    203好评

    小受被❌按住猛顶撞高潮🔞失禁

  • 哈妮克孜的❌性X🔞XXⅩ㊙️

    脱了她裙❌子🔞摸进她的内裤视频

    ❌Gy2023.片鈣㊙️G片com

    30.38MB
    905好评

    男女洗澡一边❌摸一边做视频㊙️

  • 在❌线电影번㊙️개강아지

    电击❌少妇奶头🔞无码㊙️视频

    男同❌自🔞慰出精Gay网站

    30.17MB
    544好评

    欧❌美紧身裤自慰AV无码㊙️

  • 小舞再❌深点灬好🔞爽灬轻点视频

    打美❌女🔞白嫩光屁股网站

    Free G❌AY XXXX vi🔞deo网站㊙️

    29.64MB
    121好评

    男同飞❌机黄Q🔞Q群㊙️

  • 国产暴力强❌伦轩1区🔞二区动漫

    国❌产Gay壮熊🔞无套视频

    ❌狛🔞枝凪斗被淦

    70.76MB
    450好评

    萧炎美❌杜莎被🔞c到高潮㊙️小说

  • 白丝❌袜学生无套流白浆网站㊙️❌性巴克成🔞人㊙️网站入口 title="被触手玩弄狠狠侵❌犯男男🔞漫㊙️画入口" class="0v5366j9r7414 app-list-img" src="https://t11.baidu.com/it/u=1040017057,165456434&fm=30&app=106&f=JPEG?w=312&h=208&s=15B07D95426079116A1494FD03009032"">

    她快❌高潮时故意拔出🔞来会不会被㊙️打

    ❌最全的欧美大㊙️片

  • 手❌指伸入gl晓🔞暴㊙️❌针头🔞扎一下传染㊙️几率 title="男女性婬❌欲裸🔞片免费㊙️" class="0v5366j9r7414 app-list-img" src="https://t10.baidu.com/it/u=3070224572,165461829&fm=30&app=106&f=JPEG?w=312&h=208&s=C6000AAC4838BAC8463F54AC0300A00B"">

    18❌sex🔞Ⅹ中国人

    大❌胸动🔞漫㊙️美女被C

  • 护❌士美女跪姿扒开屁股㊙️❌goodJava㊙️美足脚交 title="成 人 ❌黄 色 性 爱🔞 小 说" class="0v5366j9r7414 app-list-img" src="https://t12.baidu.com/it/u=1041590673,165100299&fm=30&app=106&f=JPEG?w=312&h=208&s=D7383EC642E1D8EA0A87937F0300C078"">

    '妓女'Search-X❌VIDE🔞OS.㊙️COM

    Free HD XXXX M❌ovies v㊙️ideo

变❌形金🔞刚女㊙️性角色插画合集 类似软件

猜你喜欢

相关攻略
包含 饿了么 的应用集
评论
  • ❌次元🔞姬㊙️ 4天前
    ❌丁程鑫🔞啊~别顶㊙️全程污
  • ❌-4🔞°C图片㊙️ 0天前
    ❌yw5239鱿鱼视频㊙️
  • 戳❌一🔞下就进㊙️去了 9天前
    ❌成人▇🔞蘑菇视频▇观看网址
  • 雷❌电将军被揉🔞下部㊙️ 0天前
    老熟女另❌类XXX精品视频㊙️
  • 高潮抽搐❌喷🔞潮㊙️Theprom 5天前
    ❌女人🔞脱了裤衩光屁屁
  • 麻❌豆国产传媒61国产🔞AV 9天前
    俊宇❌美静韩漫H无删减连㊙️载
  • 体育❌生🔞被绑榨精虐睾调教事件 7天前
    ❌安琪拉裸体露🔞双奶头图㊙️
  • ❌女🔞学员遭魔鬼教练㊙️欺凌 8天前
    人与❌善交一🔞级毛片A片视频下载
  • Pla❌yWithMari游㊙️戏 8天前
    教练❌让我一🔞晚㊙️c高潮三次正常吗
  • 啊哈❌杰克又加一指杰㊙️佣 3天前
    ❌日本按摩师揉捏奶头㊙️