Android 开发者 04月03日 22:41
Gemma 3 开发者指南 | 快速集成与部署,轻松释放 AI 潜力
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google推出了Gemma 3,这是Gemma开放模型系列中最强大的版本,旨在为开发者提供更强大的AI应用开发工具。Gemma 3 拥有多模态功能,支持视觉语言输入和文本输出,并提升了数学、推理和聊天能力。该模型提供多种规格,开发者可根据需求进行微调和灵活部署。Gemma 3 的发布也伴随着开发者指南,帮助开发者快速上手,探索其在各种应用场景的潜力。

🖼️ 多模态支持:Gemma 3 引入多模态功能,允许视觉语言输入和文本输出,能够处理图像并回答相关问题,支持高分辨率图像。

🧠 性能提升:Gemma 3 在数学、推理和聊天能力方面有所改进,支持结构化输出和函数调用,在 LMArena 中表现出色。

⚙️ 模型规格与部署:Gemma 3 提供四种规格 (1B、4B、12B 和 27B),开发者可以根据需求选择预训练模型或通用指令调优版本,并支持多种部署选项,包括 Google GenAI API、Vertex AI 等。

原创 Google 2025-04-02 17:30 北京

Gemma 3 专为设备端高效运行而设计,助力开发者随心打造 AI 应用。欢迎您阅读 Gemma 3 开发者指南,解锁更多创新可能。

作者 / 资深开发者关系工程师 Omar Sanseviero;开发者关系工程师 Philipp Schmid 

自首次推出以来,Gemma 模型的下载量已超过 1 亿次,社区为各种用例创建了超过 60,000 个变体1。我们很高兴推出 Gemma 3,这是 Gemma 开放模型系列中最强大、最先进的版本,建立在之前成功推出的 Gemma 版本之上。我们听取了社区反馈,并添加了最受欢迎的功能,例如更长的上下文、多模态支持等等!


Gemma 有哪些新功能?


Gemma 3 中引入了多模态功能,支持视觉语言输入和文本输出。它处理的上下文窗口最多可达 128k tokens,理解超过 140 种语言,并提供经过改进的数学、推理和聊天能力,包括结构化输出和函数调用。Gemma 3 提供四种规格 (1B、4B、12B 和 27B),既有可针对您自己的用例和领域进行微调的预训练模型,也有通用指令调优版本。


Gemma 是如何构建的?


Gemma 组合运用蒸馏、强化学习和模型合并等技术,优化了预训练和后训练流程。这种方法提高了其在数学、编码和指令遵循方面的性能。Gemma 3 使用了新的分词器,以更好地支持 140 多种语言,并在 Google TPU 上使用 JAX 框架进行了训练,数据量分别为:1B 模型 2T tokens,4B 模型 4T tokens,12B 模型 12T tokens,以及 27B 模型 14T tokens。

对于后训练流程,Gemma 3 使用 4 个组件:


这些更新显著改善了模型的数学、编码和指令遵循能力,使其成为 LMArena 中最优秀的开源紧凑模型,得分为 1,338。
Gemma 3 的指令版本沿用与 Gemma 2 相同的对话格式,因此您无需更新工具即可更新到最新版本以进行纯文本输入。对于图像输入,Gemma 3 允许指定与文本交错的图像。

多轮文本示例


    <bos><start_of_turn>userknock knock<end_of_turn><start_of_turn>modelwho is there<end_of_turn><start_of_turn>userGemma<end_of_turn><start_of_turn>modelGemma who?<end_of_turn>


    交错图像示例


      <bos><start_of_turn>userImage A: <start_of_image>Image B: <start_of_image>Label A: water lilyLabel B:<end_of_turn><start_of_turn>modelDesert rote<end_of_turn>


      多模态性


      Gemma 3 集成了基于 SigLIP 的视觉编码器。Gemma 3 视觉模型在训练期间保持冻结状态,并且在不同规格 (4B、12B 和 27B) 的模型中都是相同的。因此,Gemma 可以使用图像和视频作为输入,从而分析图像、回答有关图像的问题、比较图像、识别物体,甚至回复图像中的文本。虽然该模型最初是为处理 896x896 像素的图像而创建的,但由于使用了一种新的自适应窗口算法来分割输入图像,Gemma 3 现在能够处理高分辨率和非方形图像。
      △ 输入:我需要取暖,哪个按钮可以打开暖气?
      △ 输出:根据图像,可能会打开加热功能的按钮是暖房 (Danbou)。在日语中,"暖房" 意为 "加热"。您可以按下该按钮来激活空调/温度控制系统的加热功能。带有加号 (+) 的按钮可能会在您选择加热模式后用来调节温度。

      🔗 SigLIP
      https://arxiv.org/abs/2303.15343


      ShieldGemma 2


      ShieldGemma 2 是基于 Gemma 3 构建的 4B 图像安全分类器。它针对各个关键安全类别输出标签,以安全审核合成图像 (来自图像生成模型) 和自然图像 (可作为诸如 Gemma 3 等视觉语言模型的输入过滤器)。了解有关 ShieldGemma 2 的更多信息。

      🔗 ShieldGemma 2
      https://developers.googleblog.com/en/safer-and-multimodal-responsible-ai-with-gemma/


      您要开发哪些应用?


      Gemma 社区的创造力和 Gemmaverse 的爆发式增长,正不断给我们带来惊喜。从研究实验室探索创新微调技术的实践,到开发者用全新模态训练 Gemma,我们热切期待看到您的下一个突破。普林斯顿 NLP 开发的 SimPO 方法,该方法在没有参考模型的情况下直接针对人类偏好进行优化,是实验室创新微调的典型案例;另一例子是 INSAIT 针对保加利亚语训练出最先进的大语言模型。而 Nexa 在 OmniAudio 上的尝试为开发者使用全新模态训练 Gemma 提供了典型案例。我们迫不及待地想看看您接下来会取得哪些突破。

      🔗 Gemmaverse
      https://ai.google.dev/gemma/gemmaverse
      🔗 SimPO 方法
      https://huggingface.co/princeton-nlp/gemma-2-9b-it-SimPO
      🔗 针对保加利亚语训练出最先进的大语言模型
      https://ai.google.dev/gemma/gemmaverse/insait
      🔗 Nexa 在 OmniAudio 上的尝试
      https://ai.google.dev/gemma/gemmaverse/omniaudio


      Gemma 3 快速入门指南


      准备好探索 Gemma 3 的潜力了吗?下面是操作步骤:


      🔗 Google AI Studio

      https://aistudio.google.com/prompts/new_chat?model=gemma-3-27b-it

      🔗 Hugging Face

      https://huggingface.co/collections/google/gemma-3-release-67c6c6f89c4f76621268bb6d

      🔗 Kaggle

      https://www.kaggle.com/models/google/gemma-3

      🔗 我们的技术报告

      https://goo.gle/Gemma3Report

      🔗 全面的文档

      https://ai.google.dev/gemma/docs

      🔗 Hugging Face Transformers

      https://huggingface.co/blog/gemma3

      🔗 Ollama

      https://ollama.com/library/gemma3

      🔗 Gemma JAX 库

      https://gemma-llm.readthedocs.io/en/latest/

      🔗 MaxText

      https://github.com/AI-Hypercomputer/maxtext
      🔗 LiteRTGemma.cpp
      https://github.com/google/gemma.cpp

      🔗 Unsloth

      https://unsloth.ai/blog/gemma3
      🔗 Google GenAI API
      https://github.com/googleapis/python-genai

      🔗 Vertex AI

      https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3

      🔗 Cloud Run

      https://cloud.google.com/run/docs/tutorials/gpu-gemma-with-ollama

      🔗 Cloud TPU

      https://cloud.google.com/tpu/docs/intro-to-tpu

      🔗 Cloud GPU

      https://cloud.google.com/gpu


      ↕️ 上下滑动查看更多注释链接


      欢迎您持续关注 "Android 开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态。


      1 来源:https://blog.google/technology/developers/gemma-3/ 发布的全球数据





      阅读原文

      跳转微信打开

      Fish AI Reader

      Fish AI Reader

      AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

      FishAI

      FishAI

      鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

      联系邮箱 441953276@qq.com

      相关标签

      Gemma 3 AI 模型 多模态
      相关文章