与AI创新者同行的 2024-09-03 11:35 北京
视频、音乐、语音都能做,一起来测
时至今日,多模态已成为AI能力优化的必选项。
8月31日,云启天使轮被投、AI大模型独角兽「MiniMax」在首届伙伴日上发布了最新视频生成模型、音乐生成模型、语音模型,并公布了新一代多模态模型abab7的技术架构。
MiniMax创始之初就把多模态作为技术底座的重要能力。最新推出的多模态“全家桶”效果几何?本期「云启伙伴」带你一起测评。
开始之前,先来看看受邀参加MiniMax伙伴日的云启合伙人陈昱来自现场的反馈。
陈昱 云启合伙人
作为国内为数不多已开放使用的“现货”,视频生成模型abab-video-1是全场焦点。从效果来看超出我们的预期,处于国内视频生成模型的第一梯队。当天推出的音乐、语音模型也都比较成熟,音乐生成模型在现场的演示非常惊艳。采用了线性注意力机制、能更快更低成本处理长文本的多模态模型abab7也值得期待。
还有一组数据也值得关注:
MiniMax大模型每日与全球用户进行30亿次交互
日均处理超3万亿文本token,相当于一天内体验完3000段人生;
日均生成2000万张图片,相当于400座故宫的画作收藏;
日均合成7万小时语音,相当于一天读完7000本书。
简而言之,MiniMax是国内日处理量、交互时长最高的大模型公司。这一次,它带来了新的技术突破。
视频生成模型:abab-video-1
这个名为《魔法硬币》的短片是 MiniMax视频生成模型的Demo。城堡、冰原、雨林、魔法世界……不论是实景还是幻境,视频的生成效果都颇具电影感。
此次推出的video-01能够根据文本提示生成高分辨率、高帧率的原生视频,其在压缩率、文本响应性和风格多样性上都有较好表现,可根据文字生成6s时长的视频内容,并支持生成文字。目前用户可在海螺AI官网(www.hailuoai.com/video)免费体验生成包含文字的视频,最高支持原生1280*720的25fps。
9月第一周,我们也以“开学”为主题,请video-01帮我们创作了一段机器人背着书包去上学的视频。只用了2分钟左右的时间,我们就收到了下面的片段。欢迎点击播放,看看和你生成的版本哪个更好?
音乐生成模型:abab-music-1
来自云启资本音频:新学期的节奏(MiniMax生成歌曲)
上面这首以“开学”为主题的嘻哈歌曲是我们用MiniMax音乐生成模型abab-music-1创作的。该模型支持多功能端到端音乐生成,可用于合成多种音乐形式,包括纯音乐、清唱作品,大大简化音乐录制与创作过程,作词作曲都能包揽。
音乐生成功能目前也面向用户免费开放,可通过海螺AI网页版体验。流行、都市、摇滚、蓝调等多种曲风音乐等你“拆盲盒”。
语音生成模型:abab-speech-1
更新后的abab-speech-1支持包括粤语、韩语、⻄班牙语、日语等多语种,生成语句超拟人,情绪变化细腻自然。我们也尝试生成了两条效果不同的音频,可以听听看。
来自云启资本音频:MiniMax生成-女声版
来自云启资本音频:MiniMax生成-男声版
新一代MOE+Linear Attention模型技术
伙伴日当天还发布了新一代模型技术——MOE+Linear Attention,该技术能更快更低成本地处理长文本,由其支持的多模态模型abab7将在近期上线。
该技术支持高效训练海量数据,实用性和响应速度极大提升,大幅减少了大模型的训练和推理成本。相比于通用Transformer架构,在128K的序列长度下,新架构成本减少90%以上,且序列长度越长,优势越明显。
在与GPT-4o同一代模型能力对比上,新一代abab模型处理10万token时效率翻倍提升,并且随着长度越长,提升越明显。
未来重要的优化方向
伙伴日现场,MiniMax创始人、CEO闫俊杰也分享了MiniMax的初心与愿景。关于AI未来的重要优化方向,他提及了三个方面:
1.如何让模型的错误率持续降低:目前的模型还是有相对较高的错误率,有时惊艳,有时不靠谱。这也是制约模型处理复杂任务的原因,因为复杂的任务往往需要多个步骤,而较高的错误率导致失败率的指数增加。降低模型的错误率,是一个能够让模型处理复杂任务的一个最根本的前提,这个也是能够来增加用户使用深度的核心手段。
2. 无限长的输入和输出:为什么这件事情重要?很简单的原因,就是人具备这个能力,可以处理无限长度的输入跟输出。传统大模型计算需求随着输入输出处理量平方上升,很快就会达到算力无法负担的上限,需要底层创新解决。
3. 多模态:从生活中不难发现,文字交互只是很小的一部分,更多的是语音和视频交互。多模态的内容,比如声音,图文和视频,已经成为信息传递的主流。为了能够提高渗透率,多模态就是必经之路。
闫俊杰的更多走心分享,可点击“阅读原文”了解详情。