微软研究院发布了首个开源的1 bit大型语言模型BitNet b1.58 2B4T。该模型在内存占用、能耗和解码延迟方面均表现出色,远优于同等规模的全精度模型。BitNet b1.58 2B4T在包含4T tokens的语料库上训练,并在多个基准测试中展现出与领先全精度模型相当的性能。其核心创新在于使用自定义的BitLinear层,该层采用1.58bit权重量化和8bit激活量化,并通过子层归一化增强训练稳定性。模型已在Hugging Face上开源,并提供GPU和CPU架构的推理实现。
🧠BitNet b1.58 2B4T是一款参数规模达20亿的1 bit大型语言模型,其核心在于使用自定义的BitLinear层,该层采用1.58bit权重量化,使用绝对均值(absmean)量化方案将权重映射到{-1, 0, +1},并将激活量化为8bit整数,使用绝对最大值(absmax)量化策略。
💡与传统模型对比:BitNet b1.58 2B4T在内存占用、能耗和解码延迟方面均表现出色。其非嵌入层内存占用仅为0.4GB,远低于其他全精度模型。估计的解码能耗为0.028焦耳,远低于其他模型。在CPU上,平均解码延迟为29ms,也远低于其他模型。
🚀训练过程:BitNet b1.58 2B4T的训练包括预训练、监督微调(SFT)和直接偏好优化(DPO)三个阶段。预训练旨在赋予模型广泛的世界知识和基础语言能力,SFT增强模型的指令跟随能力和对话交互格式的性能,DPO则使模型的行为与人类偏好对齐。
2025-04-20 11:49 湖北

微软研究院发布了第一个开源的、原生的 1 bit 大型语言模型(LLM):BitNet b1.58 2B4T:内存占用:BitNet b1.58 2B4T 的非嵌入层内存占用仅为0.4GB,远低于其他全精度模型。
能耗:估计的解码能耗为0.028焦耳,远低于其他模型。
解码延迟:在CPU上,BitNet b1.58 2B4T 的平均延迟为29ms,远低于其他模型。
BitNet b1.58 2B4T参数规模达到20亿,在包含4T tokens的语料库上进行训练,并在多个基准测试中表现出与同规模的领先全精度模型(LLaMA 3.2 1B、Qwen2.5 1.5B、Gemma-3 1B等)相当的性能。选择了一个领先的全精度模型Qwen2.5 1.5B,并对其应用了两种标准的INT4量化方法:GPTQ和AWQ。内存占用:BitNet b1.58 2B4T的非嵌入层内存占用仅为0.4GB,远低于Qwen2.5 1.5B的2.6GB(即使在INT4量化后,Qwen2.5 1.5B的内存占用仍为0.7GB)。
性能:尽管INT4量化显著减少了Qwen2.5 1.5B的内存占用,但BitNet b1.58 2B4T在大多数基准测试中保持了更强的性能。
模型权重已通过 Hugging Face 公开发布,冲上热榜Top1,并提供了针对 GPU 和 CPU 架构的开源推理实现。现有的1bit模型要么是基于全精度模型的后训练量化(PTQ),导致性能显著下降;要么是规模较小的原生1bit模型;BitNet b1.58 2B4T 模型完全从头开始训练,核心创新是用自定义的 BitLinear 层替换了标准的全精度线性层。这些 BitLinear 层包括:
权重量化:在前向传播中,模型权重被量化为1.58bit,使用绝对均值(absmean)量化方案将权重映射到三元值{-1, 0, +1}。
激活量化:线性投影中的激活被量化为8bit整数,使用绝对最大值(absmax)量化策略,按token应用。
归一化:引入子层归一化(subln)以增强训练稳定性。
除了 BitLinear 层外,还集成了多种已建立的 LLM 技术以增强性能和稳定性,包括在前馈网络(FFN)子层中使用 ReLU2 激活函数、RoPE 以及去除所有线性层和归一化层的偏置项。
BitNet b1.58 2B4T 的训练过程包括三个阶段:
预训练:目标是赋予模型广泛的世界知识和基础语言能力。使用了两阶段学习率计划和权重衰减策略,以及包含公共文本和代码数据集的预训练语料库。
监督微调(SFT):通过多样化的指令跟随和对话数据集增强模型的指令跟随能力和对话交互格式的性能。
直接偏好优化(DPO):进一步使模型的行为与人类对有用性和安全性的偏好对齐,直接优化语言模型以使用偏好数据,避免了训练单独的奖励模型。
https://arxiv.org/pdf/2504.12285
https://hf-mirror.com/microsoft/bitnet-b1.58-2B-4T
BitNet b1.58 2B4T Technical Report
欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。
阅读原文
跳转微信打开