Founder Park 2024年12月12日
Gemini 2.0发布!主打Agent+多模态,性能超1.5 Pro、可直接生成音频、图片
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

谷歌发布Gemini 2.0 Flash,实现原生多模态输入输出,还介绍了基于此的多款产品的新功能及进展情况。

Gemini 2.0 Flash实现多模态输入输出,速度性能增强,具有多种新功能

Project Astra功能更新,对话更流畅,能使用新工具,记忆力增强,延迟降低

Project Mariner是浏览器Agent,能理解推理网页信息并完成任务,但有一定限制

Jules是AI代码助手,异步工作,与GitHub集成,提高生产力并可跟踪进度

原创 Founder Park 2024-12-12 07:03 北京

原生多模态输入、输出的大模型时代来了。

在 1.0 发布 10 个月后,谷歌在今天发布 Gemini 2.0 Flash,第一家实现原生多模态输入输出的模型。

DeepMind CEO Hassabis 说,「它的表现与当前的 1.5 Pro 型号一样出色。因此,你可以将其视为在相同成本效益、性能效率和速度下,整整提升了一个档次。我们对此非常满意。」而且,它不仅在执行 Gemini 过去能完成的任务上表现更优,还能完成新的任务。Gemini 2.0  现在能够原生生成音频和图像,并带来了新的多模态能力,Hassabis 表示,这些能力为 AI 领域的下一个重大突破——Agent,奠定了基础。

可以说,原生多模态输入、输出的大模型时代来了。

本次主要发布四款产品:Gemini 2.0 Flash 、通用助手 Project Astra 的新进展、Project Mariner 浏览器 Agent 助手、AI 代码助手 Jules。

现在可以在 Gemini 网页端使用 Gemini 2.0 Flash,稍后会在 Gemini app 中推出。

开发者可以在 Google AI Studio 和 Vertex AI 使用 Gemini 2.0 Flash 模型,所有开发者均可使用多模态输入和文本输出,产品将于 1 月份全面上市,届时将推出更多型号。

点击关注,每天更新深度 AI 行业洞察


01 

原生多模态输入输出,

速度是 1.5 Pro 的 2 倍

与 1.5 Flash 相比,Gemini 2.0 Flash 在同样快速的响应时间下性能进一步增强。值得一提的是,2.0 Flash 在关键基准测试中甚至超越了 1.5 Pro,其速度是 1.5 Pro 的两倍。

同时 2.0 Flash 还具有新功能,除了能够支持图片、视频和音频等多模态输入,2.0 Flash 现在还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音 (TTS) 音频。它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。

开发者将能够使用  Gemini 2.0 Flash 生成包含文本、音频和图像的集成响应——这一切都通过单一 API  调用实现。这些新的输出模式现已向早期测试者开放,预计明年将更广泛地推广。所有图像和音频输出中将启用 SynthID  隐形水印。

Gemini  2.0 已训练成能够使用工具——这是构建 Agent 体验的基础能力。它不仅能够原生调用 Google  搜索和代码执行等工具,还能通过函数调用方式集成自定义的第三方功能原生使用 Google  搜索作为工具,能带来更准确、全面的回答,并增加对发布者的访问量。同时,支持并行运行多个搜索,通过从多源头同时获取更相关的事实并综合以提高信息检索的准确性。

开发者现在可以构建实时多模态应用,支持来自摄像头或屏幕的音视频流输入。自然对话模式如打断和语音活动检测均得到支持。API 支持将多个工具整合在一起,通过一次 API 调用完成复杂用例。


02 

Project Astra 大更新,

谷歌新眼镜出镜

基于 Gemini 2.0 Flash 的版本,谷歌今年 I/O 上推出的通用助手 Project Astra 有了很多功能的更新。

借助 AI 助手 Gemini app 以及智能眼镜(不确定是否是首次亮相)等其他设备,谷歌正在将这些功能正在将这些功能应用于 Google 的的更多产品中。不得不说,智能眼镜对于谷歌在 Astra 项目上的努力来说,再合适不过了。

状态:期货,目前尚未全面推出,仅限受信任的测试人员使用。


03 

Project Mariner:

完成复杂任务的浏览器 Agent

在官方新闻稿中,谷歌 CEO 桑达尔·皮查伊将 Agents 定义为「能够更深入地理解你周围的世界,提前多步思考,并在你的监督下代表你采取行动」的模型。

Project Mariner 是使用 Gemini 2.0 构建的早期原型,它能够理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网页元素,然后通过 Chrome 扩展程序的形式完成任务。

这算是谷歌的「Computer Use」了。

在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。

出于安全原因和技术限制,目前 Project Mariner 只会在当前激活的网页上工作————你就像站在它身后,看着它使用你的电脑。而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。

状态:期货,目前尚未全面推出,仅限受信任的测试人员使用。


04 

Jules:AI 代码助手

基于 Gemini 2.0,Jules 以异步方式工作,并与用户的 GitHub 工作流程集成,在专注于实际想要构建的内容时,它负责处理 Bug  修复和其他耗时的任务。

官方声称,利用了搭载代码执行工具的 2.0 Flash,在 SWE-bench Verified 测试中达到了 51.8% 的通过率,Claude 3.5 是 49%。 

Jules 会制定详尽的多步骤计划来解决问题,高效地修改多个文件,甚至准备拉取请求,直接将修复内容提交回 GitHub。

状态:期货,目前 Jules 开放给一小部分可信赖的测试者,并计划在 2025 年初向其他有兴趣的开发者提供。


05 

游戏 Agent:

实时指导你打游戏

上周,谷歌推出了  Genie 2,这是一种世界模型,能够从单一图像中创造出无尽的、可玩的 3D 世界。这一次,他们利用 Gemini 2.0  构建了游戏 Agents,这些 Agent 能帮助用户在视频游戏的虚拟世界中导航。它们仅凭屏幕上的动作就能推理游戏情况,并在实时对话中提供下一步行动的建议。

谷歌与 Supercell 等顶尖的游戏开发团队合作,探索 Agent 在游戏领域的应用。通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估它们理解游戏规则、应对挑战的能力。

除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。

除此之外,谷歌还推出了一项名为深度研究(Deep Research)的新功能,基于高级推理和长上下文能力,它能直接帮你干研究助理的活儿——给个主题,自己出报告的那种。有点类似 kimi 的深度搜索。

目前这个新功能在 Gemini Advanced 版本中可用。





更多阅读

来自独立开发者的AI编程上手实战:如何用AI 提高编码效率?哪款工具最好用?

150亿美元估值、从20日活到2亿月活,Discord做对了什么?

拿下诺贝尔奖、Anthropic创始人最看好的领域,AI for Science行业万字解析

做出最好大模型的 CEO,不认为 Scaling Law 撞墙了


转载原创文章请添加微信:founderparker

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.0 多模态 谷歌产品 AI进展
相关文章