大模型厂商密集发力，谷歌也开“卷”了：Gemini聊天机器人换上新模型，还能一键核查输出内容

量子位 2024年07月27日

大模型厂商密集发力，谷歌也开“卷”了：Gemini聊天机器人换上新模型，还能一键核查输出内容

谷歌宣布Gemini聊天机器人升级至1.5 Flash版本，响应速度提高4倍，上下文窗口扩展至32k，新增事实核查功能，提高输出内容准确性。

Gemini 1.5 Flash版本通过数据蒸馏实现轻量化，提升速度与效率，支持多模态推理，上下文窗口从8k提升至32k。

新版聊天机器人增加事实核查功能，可一键检测内容真实性，减轻模型幻觉问题，但核查准确性依赖互联网资源。

Gemini 1.5 Flash在实际测试中表现优异，事实核查功能虽不完美，但提供了便捷的核查途径，用户需结合多方信息判断。

测试显示，Gemini 1.5 Flash在处理一些复杂问题时仍有局限，如数字比大小等，但整体性能优于前代模型。

谷歌此次更新适应了模型轻量化趋势，展现了其在人工智能领域的竞争力，未来可能会有更多创新功能加入。

关注前沿科技 2024-07-26 20:27 北京

上下文窗口增至4倍，响应速度也更快了

克雷西发自凹非寺
量子位 | 公众号 QbitAI

Meta、OpenAI等大模型厂商密集发力之际，谷歌也宣布了一项重磅更新——

即日起，Gemini聊天机器人将改由Gemini 1.5 Flash驱动。

与之前的版本相比，窗口长度提高到了4倍，响应速度也更快了。

按照谷歌的介绍，新版聊天机器人背后的1.5 Flash模型，主打的就是轻量化和速度提升。

当然模型回复的质量也有提升，上下文窗口也从原先（基于1.0 Pro）的8k提升到了32k。

此外新版聊天机器人还增加了“事实核查”功能，可以一键检测生成的内容是否属实，减轻模型幻觉带来的不良影响。

有网友感叹，谷歌今天表现真的很强，先是两款Aplha系模型（拿下了IMO银牌），接着Gemini也发布了更新。

还有人开启了许愿模式，期待Google Scholar学术搜索当中也能加入AI功能。

更长上下文窗口，速度也变快了

本次更新的最主要内容，就是把免费版背后的模型从1.0Pro换成了1.5 Flash。

Gemini 1.5 Flash最早亮相于5月的谷歌I/O开发者大会。

通过训练数据的“蒸馏”，Gemini 1.5 Flash用更轻量化的体积实现了较高的生成质量。

而且小体积也让模型的速度更快、效率更高，同时它还支持多模态推理。

谷歌介绍，此次更换模型之后，聊天机器人的速度会变得更快，同时旧版8k的上下文窗口，扩增到了32k。

不过1.5 Flash自身是支持1百万的上下文的，这样的削减幅度属实是不小，但毕竟是免费免费版本。

除了模型的升级，另外一项重要更新就是事实核查功能了。

在最新的Gemini聊天机器人当中，可以通过该功能一键对输出的内容进行检查。

系统会针对输出中的内容在谷歌上进行搜索和比对，然后标记出相符和不符之处。

有网友评论说，看到OpenAI上线GPT-4o mini时就觉得谷歌上新只是个时间问题。

的确，不仅是OpenAI和谷歌，Meta、Mistral等在做大模型的厂商最近都是动作频繁。

而关于模型的表现，这位网友也表示自己试过1.0 Pro和1.5 Flash，两者表现几乎相同，而1.5 Flash速度更快。

所以，谷歌的这波操作，一定程度上也是适应了最近兴起的“模型轻量化”趋势。

那么，更换了1.5 Flash之后的Gemini聊天机器人，表现到底怎样呢？

一键检查模型输出

量子位对新版的聊天机器人进行了简单测试。

首先来看一下这次更新的事实核查功能，第一步是像正常对话一样随便提一个问题，Gemini也会正常作答。

可以看到在答案的下方有一个谷歌的logo，这就是事实核查功能的按钮了。

点击之后系统会自动在谷歌进行搜索，然后与自己的输出内容进行比对。

比对完成后，能够搜索到信源且相符的内容会被高亮为绿色，如果与搜索结果存在出入，则会以浅红底色标注。

点击标注的位置，可以看到Gemini用于对比的内容链接。

需要注意的是，这样的标注并不意味着输出的内容是错误的，比如这里引用的对比资料中，汤姆克鲁斯的母亲是Marry Lee South。

由于文本不匹配，导致答案中这一部分被系统标注，但实际上两个都是正确答案。

由于这个事实核查依靠的是互联网搜索，对比资料的质量也是参差不齐，不一定能做到100%的准确。

比如关于“林黛玉倒拔垂杨柳”这个经典段子，Gemini明明给出了正确答案，结果却被标红了。

再一看引用的对比信息，属实是有些难绷了。

所以这个功能的作用，主要是提供了一个更便捷的核查途径，但具体应当如何采信，还是要依靠多方查证，以及用户自己的判断。

另外，关于模型本身，我们也测试了几个最近流行的让大模型屡屡碰壁的难题。

比如数字比大小，Gemini甚至把两个数字换算成了钱，但一通操作之后最后的结果是……错的。

自从这个问题被发现以来，如果这个是第二搞笑的答案的话，应该没有哪个模型敢称第一了。

还有一开始给了个错误答案，后面分析过程中纠正过来的。

但如果用英语提问，还是有希望直接答对的。

还有数字母的问题，这个回答竟然能从中文里数出字母来……也是把人给整不会了，完全不在预判之内。

最后，关于此次更新中提到的速度提升，经测试发现，Gemini 1.5 Flash输出第一个字的耗时要短于Claude 3 Haiku，后续的速度用肉眼观察区别不是很明显。

以上就是Gemini 1.5 Flash在聊天机器人中的表现，感兴趣的读者可以自行尝试。

参考链接：
[1]https://blog.google/products/gemini/google-gemini-new-features-july-2024/
[2]https://x.com/GeminiApp/status/1816512086232731696

— 完 —

量子位年度AI主题策划正在征集中！

欢迎投稿专题 一千零一个AI应用，365行AI落地方案

或与我们分享你在寻找的AI产品，或发现的AI新动向

点这里?关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

谷歌 Gemini聊天机器人 1.5 Flash 事实核查模型轻量化

相关文章

SRG：2024年第一季度全球企业云支出超过760亿美元同比增长21%

OpenAI set to unveil AI-driven challenger to Google Search

Comment on Import AI 316: Scaling laws for RL; Stable Diffusion for $160k; YOLOv8. by Import AI 332: Mini-AI; safety through evals; Facebook releases a RLHF dataset | Import AI

谷歌与惠普明年起将全息视频聊天技术Project Starline商业化

谷歌推出具备生成式AI功能的新版本搜索引擎

谷歌发布文生图工具Imagen 3

谷歌发布第六代TPU芯片Trillium

Google fixes sixth actively exploited Chrome zero-day this year

谷歌开了两个小时的发布会，比不上OpenAI半小时