原创 Google 2025-01-03 17:31 北京
我们推出的 Gemini 2.0 Flash 体验版为开发者带来更具沉浸感和交互性的应用环境。同时,借助全新的编码智能体 Jules,开发者可以更高效地执行任务和优化开发流程。
作者 / Gemini API 小组产品经理 Shrestha Basu Mallick 和 Google Labs 产品总监 Kathy Korevec
我们正赋予开发者构建 AI 未来的能力,包括尖端模型、智能代码编写工具以及跨平台和设备的无缝集成。自 2023 年 12 月我们推出 Gemini 1.0 以来,数百万的开发者已经使用 Google AI Studio 和 Vertex AI 在 109 种语言中使用 Gemini 进行构建。
? Google AI Studio
https://aistudio.google.com/?utm_source=gfd&utm_medium=referral&utm_campaign=blog-dec&utm_content=gemini2-L0
? 使用 Gemini 进行构建
https://ai.google.dev/showcase/?utm_source=gfd&utm_medium=referral&utm_campaign=blog-dec&utm_content=gemini2-L0-showcase
我们推出了 Gemini 2.0 Flash 体验版,旨在支持更具沉浸感和交互性的应用。同时,我们还推出了能够代开发者执行任务、优化开发流程的全新编码智能体。
? Gemini 2.0
http://deepmind.google/technologies/gemini
使用 Gemini 2.0 Flash 进行构建
在 Gemini 1.5 Flash 成功的基础上,Flash 2.0 的速度是 1.5 Pro 的两倍,具有更优越的性能,包括新的多模态输出,并支持原生工具使用。我们还推出了 Multimodal Live API,用于构建具有实时音频和视频流的动态应用。
? 性能
https://deepmind.google/technologies/gemini/flash/
即日起,开发者可以通过 Google AI Studio 和 Vertex AI 中的 Gemini API,测试和探索实验阶段的 Gemini 2.0 Flash,正式版预计将于 2025 年初全面推出。
? Google AI Studio
https://aistudio.google.com/?utm_source=gfd&utm_medium=referral&utm_campaign=blog-dec&utm_content=gemini2-L0
? Vertex AI
https://console.cloud.google.com/vertex-ai/studio/freeform?model=gemini-2.0-flash-exp
借助 Gemini 2.0 Flash,开发者可以获得:
1. 更佳性能
Gemini 2.0 Flash 比 1.5 Pro 更强大,同时在速度和效率上依然符合开发者对 Flash 的期望。它还在关键基准测试中展示了更优越的多模态、文本、代码、视频、空间理解和推理性能。改进后的空间理解能力能够在复杂图像中为小对象生成更精确的边界框,并实现更好的对象识别和图像描述。如需了解详情,您可以观看空间理解视频或阅读 Gemini API 文档。
? 基准
http://deepmind.google/technologies/gemini
? 空间理解视频
https://youtu.be/-XmoDzDMqj4
? Gemini API 文档
https://ai.google.dev/gemini-api/docs/models/gemini-v2#bounding-box
2. 新的输出模式
开发者将能够使用 Gemini 2.0 Flash 通过单次 API 调用,生成包含文本、音频和图像的综合响应。这些新的输出模态已提供给早期测试人员使用,预计 2025 年将在更大范围推广。所有图像和音频输出都将启用 SynthID 隐形水印,这有助于减少错误信息和错误归因问题。
多语言原生音频输出:Gemini 2.0 Flash 具有原生文本转语音的音频输出功能,开发者不仅可以控制模型输出的内容,还可以精细控制说话方式,并提供 8 种高品质的声音以及各种语言和口音选择。您可以聆听原生音频输出的实际效果,或在开发者文档中了解更多信息。
? 聆听原生音频输出
https://www.youtube.com/watch?v=qE673AY-WEI
? 开发者文档
https://ai.google.dev/gemini-api/docs/models/gemini-v2
原生图像输出:Gemini 2.0 Flash 现在可以生成原生图像,并支持对话式多轮编辑,因此您可以在此前的输出基础上进行构建和完善。它可以输出交错的文本和图像,使其在食谱等多模态内容中非常实用。您可以观看原生图像输出视频以了解更多信息。
? 原生图像输出视频
https://youtu.be/7RqFLp0TqV0
3. 原生工具使用
Gemini 2.0 已经过训练,能够使用工具,这是构建智能体体验的基础能力。除了通过函数调用自定义第三方函数之外,它还可以原生调用 Google Search 和代码执行等工具。使用原生 Google Search 作为工具,不仅能提供更真实、更全面的答案,还能为发行商带来更多流量。它可以同时运行多项搜索,从多个来源找到更多相关事实并将其组合以提升准确率,从而改进信息检索效率。您可以在原生工具使用视频中了解详情,或从 Notebook 上开始构建。
? 原生工具使用视频
https://youtu.be/EVzeutiojWs
? Notebook
https://github.com/google-gemini/cookbook/blob/main/gemini-2/search_tool.ipynb
4. Multimodal Live API
开发者现在可以使用来自摄像头或屏幕的音频和视频流输入,构建实时多模态应用。同时,应用可以支持诸如中断和语音活动检测等自然对话模式。该 API 支持将多个工具集成在一起,通过单个 API 调用即可完成复杂的用例。您可以在多模态直播视频中查看更多内容,尝试使用 Web console 或入门代码 (Python)。
? 多模态直播视频
https://youtu.be/9hE5-98ZeCg
? Web console
https://github.com/google-gemini/multimodal-live-api-web-console
? 入门代码
https://github.com/google-gemini/cookbook/tree/main/gemini-2
我们很高兴看到初创公司在使用 Gemini 2.0 Flash 方面取得了令人瞩目的进展,他们正在研发各种新体验的原型,例如 tldraw 的视觉游乐场、Viggle 的虚拟角色创建和音频旁白、Toonsutra 的情景多语言翻译以及 Rooms 正在实现的实时音频功能等。
? tldraw
http://ai.google.dev/showcase/tldraw
? Viggle
http://ai.google.dev/showcase/viggle
? Toonsutra
http://ai.google.dev/showcase/toonsutra
? Rooms
http://ai.google.dev/showcase/rooms
为了加速开发,我们在 Google AI Studio 中发布了三个入门级应用体验,并提供了空间理解、视频分析和 Google 地图探索的开源代码,以便您可以开始使用 Gemini 2.0 Flash 进行构建。
赋能 AI 代码辅助的演进
随着 AI 代码辅助功能从简单的代码搜索迅速发展到嵌入开发者工作流程中的 AI 助手,我们希望分享使用 Gemini 2.0 的最新进展:可以代表您执行任务的编码智能体。
在我们最新的研究中,我们已能够使用配备代码执行工具的 2.0 Flash,在 SWE-bench Verified 基准测试中达到 51.8% 的成绩,该基准测试用于评估智能体在实际软件工程任务中的表现。Gemini 2.0 Flash 的尖端推理速度使智能体能够采样数百种潜在的解决方案,再根据现有的单元测试和 Gemini 自身的判断来选择最佳解决方案。我们正在将这项研究成果转化为新的开发者产品。
认识您的 AI 编码智能体 Jules
想象一下,您的团队刚刚完成了一次 Bug Bash,现在有一长串的 Bug 等着您解决。现在,您可以将 Python 和 Javascript 编码任务分配给 Jules,这是一个使用 Gemini 2.0 的实验性 AI 编码智能体。Jules 可以异步工作,并与您的 GitHub 工作流程集成,处理 Bug 修复和其他耗时任务,让您可以专注于真正想要构建的内容。Jules 会创建全面的多步骤计划来解决问题,高效地修改多个文件,甚至还会准备拉取请求,以便将修复直接提交回 GitHub。
△ Jules 正在解决问题、制定计划并执行 (片段已剪辑,结果仅供参考。Jules 可能会出现错误。)
Jules 还处于早期阶段,但根据我们内部使用 Jules 的经验,它可为开发者提供:
更高的生产力:将问题和编码任务分配给 Jules,以提高异步编码效率。
进度跟踪:通过实时更新,随时了解情况并优先处理需要您关注的任务。
开发者全面掌控:随时查看 Jules 制定的方案,并根据需要提出反馈或进行调整。轻松审查 Jules 编写的代码,并在适当的时候将其合并到您的项目中。
我们目前将 Jules 提供给部分受信任的测试人员,并计划将于 2025 年初为其他感兴趣的开发者提供该功能。欢迎您在 labs.google.com/jules 上注册,获取有关 Jules 的最新进展。
Colab 的数据科学智能体将为您创建 Notebook
在 2024 年的 I/O 大会上,我们在 labs.google/code 上推出了实验性的数据科学智能体,任何用户都可以上传数据集,并在几分钟内获得洞察,所有这些都基于可运行的 Colab Notebook。我们收到了开发者社区的积极反馈,并见证了该功能的影响力,这令我们倍感欣喜。例如,在数据科学智能体的帮助下,Lawrence Berkeley 国家实验室研究全球热带湿地甲烷排放项目的科学家估计,原本要花一周时间分析和处理的内容,现在只需五分钟。
Colab 已经开始使用 Gemini 2.0 整合这些相同的智能体功能。只需用简单的语言描述您的分析目标,就可以自动生成 Notebook,帮助您提升研究和数据分析的能力。开发者可以通过加入受信任的测试人员计划来抢先体验这项新功能,该功能将于 2025 年上半年更广泛地面向 Colab 用户推出。
△ Colab 的数据科学智能体使用 Gemini 2.0 根据自然语言指令创建 Notebook
? 受信任的测试人员计划
https://forms.gle/UQWKGrhFqVRLmJGy5
开发者正在构建未来
我们的 Gemini 2.0 模型可以让您更快、更轻松地构建更强大的 AI 应用,让您可以专注于为用户打造卓越的体验。我们将在未来几个月内把 Gemini 2.0 引入 Android Studio、Chrome DevTools 和 Firebase 等平台。开发者可以在 Gemini Code Assist 中注册以使用 Gemini 2.0 Flash,从而在 Visual Studio Code、IntelliJ、PyCharm 等流行 IDE 中体验增强的代码辅助功能。您可以访问 ai.google.dev 开始使用,并关注 Google AI for Developers,获取后续更新。
? Android Studio
https://developer.android.google.cn/gemini-in-android
? Chrome DevTools
https://developer.chrome.com/docs/devtools/ai-assistance/quickstart
? Firebase
https://firebase.google.com/products/generative-ai
? Gemini Code Assist
https://cloud.google.com/products/gemini/code-assist/?utm_source=google_dev&utm_medium=blog&utm_campaign=gemini2_blog_launch&utm_content
? 注册
https://docs.google.com/forms/d/e/1FAIpQLSc1yAQ8aJeUUHjlLjuEVmanVvoS_YFUmHtwsetl6GXVg-U0Jw/viewform
? Google AI for Developers
https://x.com/googleaidevs
也欢迎您持续关注 "Android 开发者" 微信公众号,及时了解更多开发技术和产品更新等资讯动态!
推荐阅读
如页面未加载,请刷新重试
点击屏末 | 阅读原文 | 即刻体验 Gemini 2.0 Flash