Key Points
本周应用与模型
● OpenAI开始测试AI搜索引擎SearchGPT;
● Bing推出生成搜索功能;
● Meta发布有史以来最大的开源模型Llama 3.1;
● Mistral发布全新模型Large 2,据称「胡编」频率降低;
● 快手的可灵视频模型全面开放内测;
● 智谱AI发布视频模型清影;
● DeepMind发布数学解题模型,能解奥数题;
● Google发布大气预测模型NeuralGCM,速度更快、成本更低。
本周应用
OpenAI开始测试AI搜索引擎SearchGPT
7月25日,OpenAI正式开启对AI搜索产品SearchGPT的测试,这款5月初就在传将要上线的产品终于问世了。它的服务由GPT-4系列模型提供支持,目前仅向1万名用户开放测试。OpenAI发言人Kayla Wood表示,SearchGPT未来可能不会以独立应用的形式推出,而是直接集成到 ChatGPT中。
根据OpenAI官网发布的演示,该产品实现了对Perplexity的像素级模仿。当用户在搜索框输入问题后,SearchGPT会给出回答并附上链接,用户点击页面左边的「链接」图标,可以看到该回答引用的全部链接。除了文字内容,SearchGPT可能会提供图片或视频等多模态内容帮助理解,比如给出股价走势图。此外,SearchGPT还支持多轮追问。
关于内容引用方式,OpenAI在博客中称,SearchGPT希望通过在搜索中突出链接的方式来帮助用户与内容生产者建立联系,用户可以清楚地知道信息来源,并且可以在带有源链接的侧边栏中了解更详细的信息。Perplexity也是这么做的,但也因此面临来自福布斯、彭博社的版权指控,SearchGPT看起来面临相似的风险。
参考链接
https://openai.com/index/searchgpt-prototype/
Bing推出生成搜索功能
7月24日,微软宣布发布Bing生成搜索功能,这也是继2023年2月微软上线结合了ChatGPT的Bing(被称作Copilot)之后,Bing在模型应用上的又一大改变。微软称目前该功能仅针对少数用户开放。
在此之前,Bing的AI能力主要通过Copilot体现,但使用过程中,Copilot就像一个独立的聊天机器人,它与Bing没有有机结合,而此次Bing的生成搜索与Google此前推出的AI overview功能类似,可以汇总来自网络的信息、生成针对搜索查询的摘要,生成结果直接显示在Bing的搜索结果内。
例如,用户搜索「大象的寿命有多久」,Bing的生成搜索将提供总结后的问题答案以及信息来源,并附上相关内容的链接。值得注意的是,加入该功能后,AI生成的内容占据了搜索结果的主要页面,传统的搜索结果则被置于页面右侧。
参考链接
https://blogs.bing.com/search/July-2024/generativesearch
本周模型
Meta发布有史以来最大的开源模型Llama 3.1
7月23日,Meta发布了新模型Llama 3.1 405B,包含4050亿个参数,是Meta迄今为止最大的Llama模型。训练这个模型使用了1.6万块英伟达H100 GPU。与其他的Llama一样,Llama 3.1也是一个开源模型,支持开发人员根据需求自定义模型,在新数据集上进行训练,并做额外的微调。同日,Meta还更新了两款新的、较小的模型Llama 3.1 8B和Llama 3.1 70B,为此前同尺寸大模型的升级版本。
根据Meta发布的测试结果,Llama 3.1 405B的能力与OpenAI的GPT-4相当,表现甚至在执行代码和生成图表方面比GPT-4o更好,但多语言能力总体上较弱,在编程和一般推理方面也落后于Claude 3.5 Sonnet。
据报道,Llama 4已于6月开始训练,训练数据包括社交平台Facebook和Instagram用户的公开帖子。据悉,Llama 4将包含文本、图像、视频与音频模态,Meta计划将新模型应用在手机以及智能眼镜中。
参考链接
https://ai.meta.com/blog/meta-llama-3-1/
Mistral发布全新模型Large 2,据称「胡编」频率降低
7月24日,法国人工智能初创公司Mistral发布了全新的旗舰模型Large 2,该模型的参数为1230亿,支持128K上下文窗口。据Mistral说,在评估大模型的基准测试(MMLU)中,Large 2的预训练版本实现了84.0%的准确率。
在代码与推理方面,Mistral发布的数据显示,Large 2的表现远远优于之前的Large模型,与 GPT-4o、Claude 3 Opus和Llama 3 405B等模型的表现相当。Meta的Llama3 450B模型比Large 2早一天发布,Large 2的参数约为前者的1/3。此外Mistral表示,训练期间他们投入了大量精力减少模型的「幻觉」,当模型无法找到解决方案,或者没有足够的信息来提供答案时,它会承认这一点。
在语言方面,Large 2支持包括法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、汉语、日语和韩语在内的数十种自然语言,同时还支持包括Python、Java、C、C++等在内的八十多种编程语言。
Mistral的模型与大多数其他模型一样,不是传统意义上的开源,该模型的任何商业应用都需要付费获取许可。现在,Mistral Large 2可在Google Vertex AI、Amazon Bedrock、Azure AI Studio和IBM watsonx.ai上使用。个人用户可以在Mistral官网使用Large 2的测试版本。
参考链接
https://mistral.ai/news/mistral-large-2407/
测试链接
https://chat.mistral.ai/chat
快手的可灵视频模型全面开放内测
7月24日,快手自研的视频生成模型可灵AI宣布全面开放测试,并升级了付费会员体系。
可灵AI最早于今年6月6日上线内测,作为国内第一款可供普通用户体验的视频模型,可灵迅速走红。在7月初的WAIC上,快手高级副总裁盖坤介绍,「已有超过50万用户申请可灵的内测资格,视频生成数量达700万。」
此次开放测试,意味着可灵成为国内第一个启用付费会员模式的类Sora视频生成模型。在7月24至30日期间,可灵推出了「5折狂欢周」限时活动,单月会员费用最低33元。免费用户每日登陆可获得66个灵感值,次日清零,不可累计。生成一个5秒的视频,需消耗10个灵感值;生成一张图片,消耗0.2个灵感值,免费用户每天可以生成大约6个视频,330张图片。
可灵拥有文生图、文生视频、图生视频3个功能。以文生视频为例,用户输入提示词,设置创意想象力、运镜控制等参数后,可生成5秒的短视频。「新皮层」实测体验,生成5秒的短视频需等待2到5分钟。付费用户可以生成10秒的视频,还可体验高表现力的生成模式。
此外,快手自制的首部AI短剧《山海奇镜之劈波斩浪》7月13日首播,一共5 集,每集2至3分钟,加起来不到12分钟,现在正片加上预告片,累计播放量已突破5000万。这部短剧的编剧、剪辑、配音是真人,但画面都由AI实现,先用Midjourney文生图,再用快手可灵图生视频,部分配乐也是通过AI生成的。
使用链接
klingai.kuaishou.com
智谱AI发布视频模型CogVideoX清影
7月26日,智谱AI在Open Day活动上发布了视频生成模型CogVideoX(清影)。该模型参考了Sora的算法设计,也采用了DiT(Diffusion Models with Transformers)架构。此前,智谱AI曾推出CogVideo模型,但并未推出相应的C端应用。据智谱AI称,「CogVideoX比前一代CogVideo的推理速度提升了6倍,理论上生成6秒视频仅需30秒」。
基于最新的模型,智谱AI在智谱清言App中上线了清影,包含文生视频和图生视频两种功能,目前没有使用门槛,C端用户注册后可在PC端或者手机端使用。在灵感描述一栏中输入提示词(prompt),选择视频风格、情感氛围、运镜等进阶参数,可免费生成6秒的短视频。新皮层实测体验,生成6秒视频需要等待2到3分钟,如果想要加速,或者给视频配背景乐,则需要付费,单日付费5元,一年内付费199元。使用界面显示,清影将在未来上线长视频、4k超清画质等功能。
此外,清影API 也在大模型开放平台bigmodel.cn同步上线,企业和开发者可通过调用API体验和使用文生视频以及图生视频的模型能力。
使用链接
https://chatglm.cn/video
DeepMind发布数学解题模型,能做奥数题
7月25日,Google DeepMind宣布推出两个新的人工智能系统AlphaProof和AlphaGeometry 2。Google DeepMind这两个新系统协作解决了今年国际数学奥林匹克竞赛(IMO)6道问题中的4道,首次达到了与银牌获得者相同的水平。
IMO是历史最悠久、规模最大、最有名的、针对青年数学家的竞赛,包含代数、组合数学、几何和数论方面的6个问题,1959年以来每年举办一次。解答IMO的数学难题所需要的数学能力,通常都是人工智能系统缺乏的。
此次AlphaProof成功解决了2个代数问题与1个道数论问题。AlphaGeometry 2则解决了1个几何问题。但这两个模型都无法解决组合数学问题。两个模型解题速度缓慢,AlphaProof在数分钟内解决了1个问题,其他3个问题则花费了两个模型总共3天的时间。而在IMO的正式比赛中,人类选手需要分两节提交答案,每节4.5个小时。
AlphaGeometry 2是一种用于几何问题求解的系统的改进版本。今年1月,Google DeepMind展示了AlphaGeometry可以像人类选手一样解答IMO赛事中的几何问题,但它无法解答数论、代数以及组合数学的问题。相比前代,AlphaGeometry 2从零开始训练,并且采用的合成数据增加一个数量级,可以解决更复杂的几何问题。
相比AlphaGeometry 2,AlphaProof可以解答更广泛的数学问题,它是一种基于强化学习且用于数学推理的新系统,将预先训练的语言模型与围棋AI AlphaZero的强化学习算法结合了起来。针对数学问题,AlphaProof可以生成许多候选解决方案,然后搜索可能的证明步骤来证明或反驳这些候选解决方案,期间的每个证明都会强化AlphaProof的语言模型,加强该模型解决后续问题的能力。
使用链接
https://deepmind.google/discover/blog/ai-solves-imo-problems-at-silver-medal-level/
Google发布大气预测模型NeuralGCM
7月23日,Google在《Nature》发表论文,介绍了与欧洲中期天气预报中心(ECMWF)合作开发的一种新的大气模型NeuralGCM。这个模型预测天气更准确,而且速度超快,成本也比较低。
据介绍,NeuralGCM模型结合了传统的物理计算和现代的机器学习技术,能够更好地预测天气变化。在测试中,NeuralGCM的预测结果和目前最先进的天气预报模型一样好。NeuralGCM的速度非常快,可以在短短30秒内完成22.8天的大气模拟,而且计算成本比传统模型低了10万倍。这意味着我们可以更快、更便宜地获得更准确的天气预报。
Google的高级工程师Stephan Hoyer解释称,NeuralGCM使用了神经网络的技术来学习天气,通过观察大量的天气数据,模型可以在不同时间尺度上预测天气,比如1到15天的短期预测,以及1个月或更久的大气模拟。
此外,NeuralGCM的代码已经公开,Google希望全球的科学家都能用它来研究天气和气候。这个模型现在只能模拟大气,但Google计划将来加入海洋和碳循环等更多内容,让天气预报更加全面。
在天气预测领域,Google并不是唯一的参与者。微软的Start团队在5月宣布其AI天气预测模型有重大改进,能够预测何时可能出现云层和降水。6月,微软推出了Aurora,这是微软首个气象基础模型,计算速率大幅提升。华为也在今年的人工智能大会上宣布,其盘古天气大模型实现了从全球25公里模型向1公里、3公里、5公里区域预报精度的跨越,且包含气温、降雨、风速等气象要素。
论文地址
https://www.nature.com/articles/s41586-024-07744-y