CPU推理仅29ms，微软开源第一个原生 1 bit 大模型，内存只需Qwen 1.5B的1/15

2025-04-20 11:49 湖北

微软研究院发布了第一个开源的、原生的 1 bit 大型语言模型（LLM）：BitNet b1.58 2B4T：

内存占用：BitNet b1.58 2B4T 的非嵌入层内存占用仅为0.4GB，远低于其他全精度模型。

能耗：估计的解码能耗为0.028焦耳，远低于其他模型。

解码延迟：在CPU上，BitNet b1.58 2B4T 的平均延迟为29ms，远低于其他模型。

BitNet b1.58 2B4T参数规模达到20亿，在包含4T tokens的语料库上进行训练，并在多个基准测试中表现出与同规模的领先全精度模型（LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等）相当的性能。

选择了一个领先的全精度模型Qwen2.5 1.5B，并对其应用了两种标准的INT4量化方法：GPTQ和AWQ。

内存占用：BitNet b1.58 2B4T的非嵌入层内存占用仅为0.4GB，远低于Qwen2.5 1.5B的2.6GB（即使在INT4量化后，Qwen2.5 1.5B的内存占用仍为0.7GB）。

性能：尽管INT4量化显著减少了Qwen2.5 1.5B的内存占用，但BitNet b1.58 2B4T在大多数基准测试中保持了更强的性能。

模型权重已通过 Hugging Face 公开发布，冲上热榜Top1，并提供了针对 GPU 和 CPU 架构的开源推理实现。

现有的1bit模型要么是基于全精度模型的后训练量化（PTQ），导致性能显著下降；要么是规模较小的原生1bit模型；BitNet b1.58 2B4T 模型完全从头开始训练，核心创新是用自定义的 BitLinear 层替换了标准的全精度线性层。这些 BitLinear 层包括：

权重量化：在前向传播中，模型权重被量化为1.58bit，使用绝对均值（absmean）量化方案将权重映射到三元值{-1, 0, +1}。

激活量化：线性投影中的激活被量化为8bit整数，使用绝对最大值（absmax）量化策略，按token应用。

归一化：引入子层归一化（subln）以增强训练稳定性。

除了 BitLinear 层外，还集成了多种已建立的 LLM 技术以增强性能和稳定性，包括在前馈网络（FFN）子层中使用 ReLU2 激活函数、RoPE 以及去除所有线性层和归一化层的偏置项。

BitNet b1.58 2B4T 的训练过程包括三个阶段：

预训练：目标是赋予模型广泛的世界知识和基础语言能力。使用了两阶段学习率计划和权重衰减策略，以及包含公共文本和代码数据集的预训练语料库。

监督微调（SFT）：通过多样化的指令跟随和对话数据集增强模型的指令跟随能力和对话交互格式的性能。

直接偏好优化（DPO）：进一步使模型的行为与人类对有用性和安全性的偏好对齐，直接优化语言模型以使用偏好数据，避免了训练单独的奖励模型。

https://arxiv.org/pdf/2504.12285https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4TBitNet b1.58 2B4T Technical Report

Fish AI Reader