AI & Big Data 04月21日 14:57
Gemma 3支援QAT技術,消費級GPU就可執行270億參數大模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google 推出的 Gemma 3 模型正式支持 QAT (量化感知训练) 技术,并发布了多种量化版本。 这使得开发者即使使用消费级显卡,如 Nvidia RTX 3090,也能在本地运行参数高达 270 亿的语言模型。 这一技术降低了大型 AI 模型的硬件要求, 扩大了本地部署和边缘计算的应用范围。新版本整合了主流开源工具和本地推理框架,方便开发者快速加载和使用 QAT 模型。

💡 Gemma 3 原始模型使用 BF16 格式在高阶 GPU (如 Nvidia H100) 上运行,提供先进的推理性能。

💾 QAT 版本通过在训练期间模拟低精度计算, 抑制了传统量化技术可能带来的性能下降,并支持 int4 格式, 从而大幅减少了模型权重所需的 GPU 内存容量。

📉 经过 QAT 处理后,Gemma 3 27B 模型以 int4 格式存储时仅需约 14.1 GB VRAM,远低于 BF16 格式所需的 54 GB, 使得其能够在 RTX 3090 等显卡上运行。

🛠️ 新版本整合了主流开源工具和本地推理框架,开发者可以通过 Ollama、LM Studio、MLX、llama.cpp 和 gemma.cpp 等平台快速加载和使用 QAT 模型。

🌐 官方模型已在 Hugging Face 和 Kaggle 开放下载,支持常见的 GGUF 格式与 Q4_0 变体, 也可以搭配社区贡献的 PTQ 模型版本使用。

Google Gemma 3模型正式支援QAT(Quantization-Aware Training)技術,同步釋出多種已量化版本,讓開發者即便使用消費級顯示卡如Nvidia RTX 3090,也能在本地執行最多達270億參數的語言模型,進一步降低大型人工智慧模型的硬體門檻,擴大本地部署與邊緣運算應用可能性。

Gemma 3原始模型以BF16格式於Nvidia H100等高階GPU上執行,可提供先進的推論效能。而本次QAT版本則是透過訓練期間模擬低精度運算,有效抑制傳統量化技術可能帶來的效能衰退,支援int4格式,大幅縮減模型權重所需GPU記憶體容量。Gemma 3 27B模型經QAT後,以int4格式儲存時僅需約14.1 GB VRAM,較原本BF16格式的54 GB顯著降低,實際已可在RTX 3090等顯示卡載入執行。

新版本整合主流開源工具與本地推論框架,開發者可透過Ollama、LM Studio、MLX、llama.cpp與gemma.cpp等平臺快速載入,並開始使用QAT版本模型。官方模型目前已於Hugging Face與Kaggle開放下載,支援常見的GGUF格式與Q4_0變體,也可搭配社群貢獻的PTQ模型版本使用。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Google Gemma 3 QAT 量化 AI 模型 本地部署
相关文章