开学测评：MiniMax新出的“多模态全家桶”好用吗？

与AI创新者同行的 2024-09-03 11:35 北京

视频、音乐、语音都能做，一起来测

时至今日，多模态已成为AI能力优化的必选项。

8月31日，云启天使轮被投、AI大模型独角兽「MiniMax」在首届伙伴日上发布了最新视频生成模型、音乐生成模型、语音模型，并公布了新一代多模态模型abab7的技术架构。

MiniMax创始之初就把多模态作为技术底座的重要能力。最新推出的多模态“全家桶”效果几何？本期「云启伙伴」带你一起测评。

开始之前，先来看看受邀参加MiniMax伙伴日的云启合伙人陈昱来自现场的反馈。

陈昱云启合伙人

作为国内为数不多已开放使用的“现货”，视频生成模型abab-video-1是全场焦点。从效果来看超出我们的预期，处于国内视频生成模型的第一梯队。当天推出的音乐、语音模型也都比较成熟，音乐生成模型在现场的演示非常惊艳。采用了线性注意力机制、能更快更低成本处理长文本的多模态模型abab7也值得期待。

还有一组数据也值得关注：

MiniMax大模型每日与全球用户进行30亿次交互

日均处理超3万亿文本token，相当于一天内体验完3000段人生；

日均生成2000万张图片，相当于400座故宫的画作收藏；

日均合成7万小时语音，相当于一天读完7000本书。

简而言之，MiniMax是国内日处理量、交互时长最高的大模型公司。这一次，它带来了新的技术突破。

视频生成模型：abab-video-1

这个名为《魔法硬币》的短片是 MiniMax视频生成模型的Demo。城堡、冰原、雨林、魔法世界……不论是实景还是幻境，视频的生成效果都颇具电影感。

此次推出的video-01能够根据文本提示生成高分辨率、高帧率的原生视频，其在压缩率、文本响应性和风格多样性上都有较好表现，可根据文字生成6s时长的视频内容，并支持生成文字。目前用户可在海螺AI官网(www.hailuoai.com/video)免费体验生成包含文字的视频，最高支持原生1280*720的25fps。

9月第一周，我们也以“开学”为主题，请video-01帮我们创作了一段机器人背着书包去上学的视频。只用了2分钟左右的时间，我们就收到了下面的片段。欢迎点击播放，看看和你生成的版本哪个更好？

音乐生成模型：abab-music-1

来自云启资本音频：新学期的节奏(MiniMax生成歌曲）

上面这首以“开学”为主题的嘻哈歌曲是我们用MiniMax音乐生成模型abab-music-1创作的。该模型支持多功能端到端音乐生成，可用于合成多种音乐形式，包括纯音乐、清唱作品，大大简化音乐录制与创作过程，作词作曲都能包揽。

音乐生成功能目前也面向用户免费开放,可通过海螺AI网页版体验。流行、都市、摇滚、蓝调等多种曲风音乐等你“拆盲盒”。

语音生成模型：abab-speech-1

更新后的abab-speech-1支持包括粤语、韩语、⻄班牙语、日语等多语种，生成语句超拟人，情绪变化细腻自然。我们也尝试生成了两条效果不同的音频，可以听听看。

来自云启资本音频：MiniMax生成-女声版

来自云启资本音频：MiniMax生成-男声版

新一代MOE+Linear Attention模型技术

伙伴日当天还发布了新一代模型技术——MOE+Linear Attention，该技术能更快更低成本地处理长文本，由其支持的多模态模型abab7将在近期上线。

该技术支持高效训练海量数据，实用性和响应速度极大提升，大幅减少了大模型的训练和推理成本。相比于通用Transformer架构，在128K的序列长度下，新架构成本减少90%以上，且序列长度越长，优势越明显。

在与GPT-4o同一代模型能力对比上，新一代abab模型处理10万token时效率翻倍提升，并且随着长度越长，提升越明显。

未来重要的优化方向

伙伴日现场，MiniMax创始人、CEO闫俊杰也分享了MiniMax的初心与愿景。关于AI未来的重要优化方向，他提及了三个方面：

1.如何让模型的错误率持续降低：目前的模型还是有相对较高的错误率，有时惊艳，有时不靠谱。这也是制约模型处理复杂任务的原因，因为复杂的任务往往需要多个步骤，而较高的错误率导致失败率的指数增加。降低模型的错误率，是一个能够让模型处理复杂任务的一个最根本的前提，这个也是能够来增加用户使用深度的核心手段。

2. 无限长的输入和输出：为什么这件事情重要？很简单的原因，就是人具备这个能力，可以处理无限长度的输入跟输出。传统大模型计算需求随着输入输出处理量平方上升，很快就会达到算力无法负担的上限，需要底层创新解决。

3. 多模态：从生活中不难发现，文字交互只是很小的一部分，更多的是语音和视频交互。多模态的内容，比如声音，图文和视频，已经成为信息传递的主流。为了能够提高渗透率，多模态就是必经之路。

闫俊杰的更多走心分享，可点击“阅读原文”了解详情。

阅读原文

跳转微信打开

视频生成模型：abab-video-1

音乐生成模型：abab-music-1

语音生成模型：abab-speech-1

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签