IT之家 04月19日 09:58
27B 显存需求 54 → 14.1GB:谷歌发布 Gemma 3 QAT AI 模型,RTX 3090 显卡可运行
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌发布了量化感知训练(QAT)优化版Gemma 3模型,旨在降低内存需求,提升模型在普通硬件上的运行效率。通过量化技术降低模型参数的数值精度,如从BF16到int4,显著减少数据存储量,使得Gemma 3模型能够在桌面、笔记本甚至手机等设备上运行。为确保性能,谷歌采用了QAT技术,在训练过程中模拟低精度运算。目前,Ollama、LM Studio 和 llama.cpp 等主流平台已集成该模型,用户可通过Hugging Face 和 Kaggle 获取,轻松在Apple Silicon 或 CPU上运行。

💡 **核心优化:** 谷歌通过量化技术,降低了Gemma 3模型参数的数值精度,例如从BF16的16位降至int4的4位,从而大幅减少了数据存储量。以int4量化为例,Gemma 3 27B显存需求从54GB锐减至14.1GB,12B则从24GB降至6.6GB,1B仅需0.5GB显存。

🚀 **硬件兼容性提升:** 显存需求的降低使得Gemma 3能够在更多硬件上运行,包括桌面端的NVIDIA RTX 3090、笔记本端的NVIDIA RTX 4060 Laptop GPU,甚至手机也能支持小型模型。

⚙️ **性能保障:** 为了避免量化导致的性能下降,谷歌采用了量化感知训练(QAT)技术。该技术在训练过程中模拟低精度运算,确保模型在压缩后仍保持高准确性。Gemma 3 QAT模型在约5000步训练中,将困惑度下降减少了54%。

💻 **集成与获取:** Ollama、LM Studio 和 llama.cpp 等主流平台已集成Gemma 3 QAT模型。用户可通过Hugging Face 和 Kaggle 获取官方int4和Q4_0模型,方便在Apple Silicon 或 CPU上运行。此外,Gemmaverse 社区提供了更多量化选项,满足不同需求。

IT之家 4 月 19 日消息,谷歌公司昨日(4 月 18 日)发布博文,发布了量化感知训练(QAT)优化版 Gemma 3 模型,在保持高质量的同时,降低内存需求。

谷歌上月推出 Gemma 3 开源模型,能在单台 NVIDIA H100 GPU 上以 BFloat16(BF16)精度高效运行。

IT之家援引博文介绍,谷歌为响应用户需求,致力于让 Gemma 3 的强大性能适配普通硬件。量化技术是关键,通过降低模型参数的数值精度(如从 BF16 的 16 位降至 int4 的 4 位),类似图像压缩减少颜色数量,大幅减少数据存储量。

以 int4 量化为例,Gemma 3 27B 显存需求从 54GB 锐减至 14.1GB,Gemma 3 12B 则从 24GB 降至 6.6GB;Gemma 3 1B 仅需 0.5GB 显存。

这意味着用户可在桌面(NVIDIA RTX 3090)或笔记本(NVIDIA RTX 4060 Laptop GPU)上运行强大 AI 模型,甚至手机也能支持小型模型。

为避免量化导致性能下降,谷歌采用量化感知训练(QAT)技术,在训练过程中模拟低精度运算,确保模型在压缩后仍保持高准确性。Gemma 3 QAT 模型在约 5000 步训练中,将困惑度下降减少了 54%。

Ollama、LM Studio 和 llama.cpp 等主流平台已集成该模型,用户可通过 Hugging Face 和 Kaggle 获取官方 int4 和 Q4_0 模型,轻松在 Apple Silicon 或 CPU 上运行。此外,Gemmaverse 社区提供了更多量化选项,满足不同需求。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemma 3 量化感知训练 QAT 模型优化 AI
相关文章