Gemma 3 开发者指南 | 快速集成与部署，轻松释放 AI 潜力

原创 Google 2025-04-02 17:30 北京

Gemma 3 专为设备端高效运行而设计，助力开发者随心打造 AI 应用。欢迎您阅读 Gemma 3 开发者指南，解锁更多创新可能。

作者 / 资深开发者关系工程师 Omar Sanseviero；开发者关系工程师 Philipp Schmid

自首次推出以来，Gemma 模型的下载量已超过 1 亿次，社区为各种用例创建了超过 60,000 个变体1。我们很高兴推出 Gemma 3，这是 Gemma 开放模型系列中最强大、最先进的版本，建立在之前成功推出的 Gemma 版本之上。我们听取了社区反馈，并添加了最受欢迎的功能，例如更长的上下文、多模态支持等等！

Gemma 有哪些新功能？

Gemma 3 中引入了多模态功能，支持视觉语言输入和文本输出。它处理的上下文窗口最多可达 128k tokens，理解超过 140 种语言，并提供经过改进的数学、推理和聊天能力，包括结构化输出和函数调用。Gemma 3 提供四种规格 (1B、4B、12B 和 27B)，既有可针对您自己的用例和领域进行微调的预训练模型，也有通用指令调优版本。

Gemma 是如何构建的？

Gemma 组合运用蒸馏、强化学习和模型合并等技术，优化了预训练和后训练流程。这种方法提高了其在数学、编码和指令遵循方面的性能。Gemma 3 使用了新的分词器，以更好地支持 140 多种语言，并在 Google TPU 上使用 JAX 框架进行了训练，数据量分别为：1B 模型 2T tokens，4B 模型 4T tokens，12B 模型 12T tokens，以及 27B 模型 14T tokens。

对于后训练流程，Gemma 3 使用 4 个组件：

从较大的 INSTRUCT 模型蒸馏到 Gemma 3 预训练检查点。

从人类反馈 (RLHF) 中强化学习，以使模型预测与人类偏好保持一致。

从机器反馈 (RLMF) 中强化学习，以增强数学推理。

从执行反馈 (RLEF) 中强化学习，以提升编码能力。

这些更新显著改善了模型的数学、编码和指令遵循能力，使其成为 LMArena 中最优秀的开源紧凑模型，得分为 1,338。

Gemma 3 的指令版本沿用与 Gemma 2 相同的对话格式，因此您无需更新工具即可更新到最新版本以进行纯文本输入。对于图像输入，Gemma 3 允许指定与文本交错的图像。

多轮文本示例

<bos><start_of_turn>userknock knock<end_of_turn><start_of_turn>modelwho is there<end_of_turn><start_of_turn>userGemma<end_of_turn><start_of_turn>modelGemma who?<end_of_turn>

交错图像示例

<bos><start_of_turn>userImage A: <start_of_image>Image B: <start_of_image>Label A: water lilyLabel B:<end_of_turn><start_of_turn>modelDesert rote<end_of_turn>

多模态性

Gemma 3 集成了基于 SigLIP 的视觉编码器。Gemma 3 视觉模型在训练期间保持冻结状态，并且在不同规格 (4B、12B 和 27B) 的模型中都是相同的。因此，Gemma 可以使用图像和视频作为输入，从而分析图像、回答有关图像的问题、比较图像、识别物体，甚至回复图像中的文本。虽然该模型最初是为处理 896x896 像素的图像而创建的，但由于使用了一种新的自适应窗口算法来分割输入图像，Gemma 3 现在能够处理高分辨率和非方形图像。

△ 输入：我需要取暖，哪个按钮可以打开暖气？

△ 输出：根据图像，可能会打开加热功能的按钮是暖房 (Danbou)。在日语中，"暖房" 意为 "加热"。您可以按下该按钮来激活空调/温度控制系统的加热功能。带有加号 (+) 的按钮可能会在您选择加热模式后用来调节温度。

🔗 SigLIP

https://arxiv.org/abs/2303.15343

ShieldGemma 2

ShieldGemma 2 是基于 Gemma 3 构建的 4B 图像安全分类器。它针对各个关键安全类别输出标签，以安全审核合成图像 (来自图像生成模型) 和自然图像 (可作为诸如 Gemma 3 等视觉语言模型的输入过滤器)。了解有关 ShieldGemma 2 的更多信息。

🔗 ShieldGemma 2

https://developers.googleblog.com/en/safer-and-multimodal-responsible-ai-with-gemma/

您要开发哪些应用？

Gemma 社区的创造力和 Gemmaverse 的爆发式增长，正不断给我们带来惊喜。从研究实验室探索创新微调技术的实践，到开发者用全新模态训练 Gemma，我们热切期待看到您的下一个突破。普林斯顿 NLP 开发的 SimPO 方法，该方法在没有参考模型的情况下直接针对人类偏好进行优化，是实验室创新微调的典型案例；另一例子是 INSAIT 针对保加利亚语训练出最先进的大语言模型。而 Nexa 在 OmniAudio 上的尝试为开发者使用全新模态训练 Gemma 提供了典型案例。我们迫不及待地想看看您接下来会取得哪些突破。

🔗 Gemmaverse

https://ai.google.dev/gemma/gemmaverse

🔗 SimPO 方法

https://huggingface.co/princeton-nlp/gemma-2-9b-it-SimPO

🔗 针对保加利亚语训练出最先进的大语言模型

https://ai.google.dev/gemma/gemmaverse/insait

🔗 Nexa 在 OmniAudio 上的尝试

https://ai.google.dev/gemma/gemmaverse/omniaudio

Gemma 3 快速入门指南

准备好探索 Gemma 3 的潜力了吗？下面是操作步骤：

直接体验：只需点击几下，即可在 Google AI Studio 中试用 Gemma 3。

下载模型：在 Hugging Face 和 Kaggle 上查找模型权重。