Android 开发者 10小时前
深入了解 Gemma 3n:创新的设备端 AI 模型
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Google正式发布Gemma 3n,这款移动设备优先的AI模型在设备端AI领域取得了重大突破。Gemma 3n原生支持多模态输入(图像、音频、视频、文本)和文本输出,并以E2B和E4B两种高效尺寸提供,可在极低的内存占用下运行,媲美传统2B和4B模型。其创新的MatFormer架构、逐层嵌入(PLE)技术以及优化的音频和视觉编码器,使其在多语言、数学、编码和推理能力上均有显著提升。Gemma 3n已获得Hugging Face Transformers、llama.cpp等主流工具的支持,方便开发者进行微调和部署,并推出了Gemma 3n挑战赛,鼓励开发者利用其离线和多模态能力打造有益于世界的应用。

✨ **Gemma 3n的创新架构与高效设计**:Gemma 3n的核心是MatFormer(Matryoshka Transformer)架构,它通过嵌套式Transformer设计,实现了模型尺寸的弹性,能以更少的参数量(E2B约2B,E4B约4B)达到与更大模型相当的性能,并支持混合匹配(Mix-n-Match)自定义调整模型尺寸以适应不同硬件。逐层嵌入(PLE)技术进一步提升了内存效率,使得大部分参数可在CPU上加载计算,降低了对加速器高速内存的需求。

🔊 **强大的多模态处理能力**:Gemma 3n原生支持图像、音频、视频和文本输入,并能生成文本输出。其集成的先进音频编码器(基于通用语音模型USM)能实现高质量的语音转文本(ASR)和语音翻译(AST),为设备端应用带来了更丰富的交互体验。同时,全新的MobileNet-V5-300M视觉编码器提供了卓越的图像和视频理解能力,支持多种输入分辨率,并在Google Pixel上实现了高达60帧/秒的处理速度。

🚀 **性能提升与社区支持**:Gemma 3n在多语言(支持140种语言文本和35种语言多模态理解)、数学、编码和推理能力上均有提升,E4B版本的LMArena得分更是超过1,300。该模型已获得Hugging Face Transformers、llama.cpp、Ollama、MLX等众多主流开发工具和平台的支持,极大地方便了开发者进行模型微调和部署。此外,Google还发起了“Gemma 3n挑战赛”,鼓励开发者利用其设备端、离线和多模态能力创造有价值的应用。

⚡ **优化长上下文处理与部署灵活性**:Gemma 3n引入了KV缓存共享功能,显著提升了长输入序列(如音频视频流)的预填充性能,加快了流式响应应用的首个token生成时间。模型提供了多种部署选项,包括Google AI Studio、Hugging Face、Kaggle、Google GenAI API、Vertex AI等,开发者可以根据自身需求选择最便捷的方式进行体验、下载、学习和集成。

Google 2025-07-21 18:40 北京

Gemma 3n 全面发布!欢迎您阅读本文,了解如何发挥出 Gemma 3n 的全部潜能,更轻松地针对特定的设备端应用进行微调和部署。

作者 / 资深开发者关系工程师 Omar Sanseviero 和高级开发者关系工程师 Ian Ballantyne

第一个 Gemma 模型于去年年初推出以来,已逐渐发展为生机勃勃的 Gemmaverse 生态系统,累计下载量突破 1.6 亿。这个生态系统包括十余款专业模型系列,涵盖从安全防护到医疗应用的各领域。其中,最令人振奋的是来自社区的无数创新。从像 Roboflow 这样的创新者构建的企业级计算机视觉,到东京科学研究所创建的高性能日语 Gemma 变体,各位的作品为我们指明了未来的发展路径。

🔗 Gemmaverse

https://deepmind.google/models/gemma/gemmaverse/

🔗 Roboflow

https://deepmind.google/models/gemma/gemmaverse/roboflow/

🔗 东京科学研究所

https://deepmind.google/models/gemma/gemmaverse/gemma-2-llama-swallow/

乘此发展势头,我们宣布 Gemma 3n 现已全面发布。虽然预览版已先行展示了一些功能,但这一移动设备优先的架构现在能够发挥出全部的潜能。Gemma 3n 为帮助塑造了 Gemma 的开发者社区而生。包括 Hugging Face Transformers、llama.cpp、Google AI Edge、Ollama 和 MLX 在内,您熟悉和惯用的多种工具都支持该模型,让您能轻松针对特定的设备端应用进行微调和部署。本篇文章将以开发者视角深入探索,介绍 Gemma 3n 背后的一些创新,分享新的基准测试结果,并向您展示如何立即开始构建。

Gemma 3n 的新功能

Gemma 3n 代表了设备端 AI 的重大进步,为边缘设备带来了强大的多模态功能;过去,这些性能仅在去年基于云端的一些前沿模型中有所展现。

🔗 有效

https://developers.googleblog.com/zh-hans/introducing-gemma-3n-developer-guide/

要实现这种设备端性能的飞跃,需要从零开始,对模型进行颠覆性的重新构思和设计,其基础是 Gemma 3n 独特的移动设备优先架构,而这一切都源于 MatFormer。

MatFormer:一个模型,多种尺寸

Gemma 3n 的核心是 MatFormer (🪆Matryoshka Transformer) 架构,这是一种专为弹性推理而构建的新型嵌套式 Transformer。您可以把它想象成俄罗斯套娃:一个更大的模型包含着更小、功能齐全的自身版本。这种方法将 Matryoshka 表征学习的概念从嵌入层扩展到所有 Transformer 组件。

🔗 MatFormer

https://arxiv.org/abs/2310.07707

🔗 Matryoshka 表征学习

https://huggingface.co/papers/2205.13147

如上图所示,在对 4B 有效参数 (E4B) 模型进行 MatFormer 训练期间,2B 有效参数 (E2B) 子模型在其内部同时得到优化。这在当下为开发者提供了两种强大的功能和用例:

    预提取的模型:您可以直接下载并使用主 E4B 模型以获得最高级的功能,也可以使用我们已经为您提取的独立 E2B 子模型,获得主模型 2 倍的推理速度。

    使用混合匹配 (Mix-n-Match) 自定义调整尺寸:为了更精细地控制以适应特定的硬件限制,您可以使用我们称之为 "混合匹配" 的方法,创建介于 E2B 和 E4B 之间的各种自定义尺寸模型。此技术允许您精确切分 E4B 模型的参数,主要是通过调整每层前馈网络隐藏维度 (从 8,192 到 16,384) 并选择性地跳过某些层来实现。我们即将发布 MatFormer Lab,该工具可演示如何检索这些最优模型,这些模型是在 MMLU 等基准测试中通过评估多种配置组合而筛选出来的。

△ 不同模型尺寸的预训练 Gemma 3n 检查点的 MMLU 分数 (使用混合匹配)

🔗 MatFormer Lab

https://goo.gle/gemma3n-matformer-lab

展望未来,MatFormer 架构也为弹性执行铺平了道路。虽然这项能力并非本次发布实现的一部分,但它允许单个部署的 E4B 模型在 E4B 和 E2B 推理路径之间动态切换,从而根据当前任务和设备负载,实时优化性能和内存用量。

逐层嵌入 (PLE):解锁更高的内存效率

Gemma 3n 模型包含逐层嵌入 (PLE)。这项创新专为设备端部署量身定制,它在不增加设备加速器 (GPU/TPU) 所需的高速内存占用量的情况下,显著提升了模型质量。

虽然 Gemma 3n E2B 和 E4B 模型的总参数量分别为 5B 和 8B,但逐层嵌入 (PLE) 技术却能让这些参数中的很大一部分 (即与各层相关的嵌入),在 CPU 上高效地加载和计算。这意味着通常在更为受限的加速器内存 (VRAM) 中,只需加载核心 Transformer 权重 (E2B 约为 2B,E4B 约为 4B)。

△ 使用逐层嵌入,您可以在加速器中仅加载约 2B 参数的情况下使用 Gemma 3n E2B

KV 缓存共享:更迅速的长上下文处理

对于诸多先进的设备端多模态应用而言,处理长输入 (例如源自音频和视频流的连续序列) 至关重要。Gemma 3n 引入了 KV 缓存共享功能,旨在极大缩短流式响应应用的首个 token 生成时间。

KV 缓存共享优化了模型处理初始输入阶段 (通常称为 "预填充" 阶段) 的方式。将局部注意力和全局注意力中间层的键 (Keys) 和值 (Values) 直接与所有顶层共享,与 Gemma 3 4B 相比,预填充性能显著提升了 2 倍。这意味着该模型可以比以前更快地注入和理解冗长的提示序列。

音频理解:语音转文本和翻译功能

Gemma 3n 使用基于通用语音模型 (USM) 的高级音频编码器。编码器为每 160ms 的音频生成一个 token (约每秒 6 个 tokens),然后将其作为输入集成到语言模型中,从而为模型提供高度精细的声音上下文表征。

🔗 通用语音模型

https://arxiv.org/abs/2303.01037

这种集成的音频功能解锁了设备端开发的多种关键特性,包括:

我们观察到,对于英语和西班牙语、法语、意大利语及葡萄牙语之间的翻译,AST 的表现尤为出色,为针对这些语言的应用开发者提供了巨大潜力。对于语音翻译等任务,利用思维链提示可以显著改进结果。以下是一个示例:

<bos><start_of_turn>user
Transcribe the following speech segment in Spanish, then translate it into English: 
<start_of_audio><end_of_turn>
<start_of_turn>model

截至文章发布时,Gemma 3n 编码器可处理长达 30 秒的音频片段。然而,这并不是一个根本上的限制。底层的音频编码器是一种流式编码器,通过额外的长篇格式音频训练,编码器可以处理任意长度的音频。后续实现将解锁延迟更低、时间更长的流媒体应用。

MobileNet-V5:

最先进的全新视觉编码器

除了集成的音频功能外,Gemma 3n 还配备了全新的高效视觉编码器 MobileNet-V5-300M,可为边缘设备上的多模态任务提供最先进的性能。

MobileNet-V5 旨在为受限的硬件赋予灵活性和强大功能,为开发者提供:

这种性能水平是通过多项架构创新实现的,包括:

得益于新颖的架构设计和先进的蒸馏技术,MobileNet-V5-300M 在 Gemma 3 中的性能大大优于基准 SoViT (使用 SigLip 训练,无蒸馏)。在 Google Pixel Edge TPU 上,该编码器在有量化情况下提速 13 倍 (无量化时为 6.5 倍),所需参数减少 46%,内存占用减少为原来的 1/4,同时在视觉-语言任务上的准确性显著提升。

我们很期待与大家分享该模型的更多研发工作,后续即将发布的 MobileNet-V5 技术报告将深入探讨模型架构、数据扩展策略和先进的蒸馏技术。

与社区共建

我们始终将 Gemma 3n 的易用性放在首位,也非常荣幸能与众多杰出的开源开发者合作,确保模型能在多个热门工具和平台得到广泛支持,其中包括来自 AMD、Axolotl、Docker、Hugging Face、llama.cpp、LMStudio、MLX、NVIDIA、Ollama、RedHat、SGLang、Unsloth 和 vLLM 等团队的贡献。

🔗 Docker

https://hub.docker.com/r/ai/gemma3n

🔗 NVIDIA

https://developer.nvidia.com/blog/run-google-deepminds-gemma-3n-on-nvidia-jetson-and-rtx/

这个生态系统仅仅是开始,这项技术的真正价值在于用它构建的成果。正因如此,我们推出了 "Gemma 3n 挑战赛",使用 Gemma 3n 独特的 On-Device、离线和多模态能力,打造一款造福世界的产品。即刻参与挑战赛,提交引人注目的视频介绍,并通过精妙的演示展现产品的现实影响力,就有机会赢取 15 万美元的奖金和精美礼品!欢迎加入挑战,共创美好未来。

🔗 加入挑战

https://link.gevents.cn/Gemma-3n-Impact-Challenge

开始使用 Gemma 3n

准备好即刻探索 Gemma 3n 的潜力了吗?请查收以下攻略:

🔗 Google AI Studio

https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it

🔗 Hugging Face

https://huggingface.co/collections/google/gemma-3n-685065323f5984ef315c93f4

🔗 Kaggle

https://www.kaggle.com/models/google/gemma-3n

🔗 综合文档

https://ai.google.dev/gemma/docs/gemma-3n

🔗 Google AI Edge Gallery/LiteRT-LLM

https://github.com/google-ai-edge/gallery

🔗 Ollama

https://ollama.com/library/gemma3n

🔗 MLX

https://huggingface.co/collections/mlx-community/gemma-3n-685d6c8d02d7486c7e77a7dc

🔗 llama.cpp

https://huggingface.co/collections/ggml-org/gemma-3n-685d6fc0843071be9e77b6f7

🔗 Docker

https://hub.docker.com/r/ai/gemma3n

🔗 transformers.js

https://huggingface.co/onnx-community/gemma-3n-E2B-it-ONNX

🔗 Hugging Face Transformers 和 TRL

https://huggingface.co/blog/gemma3n

🔗 NVIDIA NeMo Framework

https://github.com/NVIDIA-NeMo

🔗 Unsloth

https://unsloth.ai/blog/gemma-3n

🔗 LMStudio

https://lmstudio.ai/models/google/gemma-3n-e4b

🔗 Google GenAI API

https://ai.google.dev/gemma/docs/core/gemma_on_gemini_api

🔗 Vertex AI

https://console.cloud.google.com/vertex-ai/publishers/google/model-garden/gemma3n

🔗 NVIDIA API Catalog

https://build.nvidia.com/google/gemma-3n-e4b-it


↕️ 上下滑动查看更多注释链接

我们还准备了详尽的视频教程,帮助您更轻松、快速地上手 Gemma,欢迎您查看 Bilibili 视频合集——Gemma 3:从入门到精通,探索更多精彩内容!

🔗 Gemma 3: 从入门到精通

https://space.bilibili.com/64169458/lists/5888705




阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemma 3n 设备端AI 多模态 Transformer AI模型
相关文章