云启资本 2024年10月28日
开学测评:MiniMax新出的“多模态全家桶”好用吗? | 云启伙伴
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

MiniMax在首届伙伴日上发布多种模型,包括视频、音乐、语音生成模型及新一代多模态模型abab7的技术架构。其视频生成模型效果超预期,音乐、语音模型成熟,且每日处理量和交互时长高,创始人还分享了AI未来重要优化方向。

🎬 MiniMax的视频生成模型abab-video-1是全场焦点,其Demo《魔法硬币》的生成效果颇具电影感。该模型能根据文本提示生成高分辨率、高帧率的原生视频,在压缩率、文本响应性和风格多样性上表现较好,用户可在海螺AI官网免费体验。

🎵 音乐生成模型abab-music-1支持多功能端到端音乐生成,可合成多种音乐形式,大大简化音乐录制与创作过程,且音乐生成功能面向用户免费开放,可通过海螺AI网页版体验多种曲风。

🎙 语音生成模型abab-speech-1更新后支持多语种,生成语句超拟人,情绪变化细腻自然,用户可通过相关音频感受其效果。

💻 新一代MOE+Linear Attention模型技术能更快更低成本地处理长文本,由其支持的多模态模型abab7将近期上线,该技术可大幅减少大模型的训练和推理成本。

与AI创新者同行的 2024-09-03 11:35 北京

视频、音乐、语音都能做,一起来测

时至今日,多模态已成为AI能力优化的必选项。


8月31日,云启天使轮被投、AI大模型独角兽「MiniMax」在首届伙伴日上发布了最新频生成模型、音乐生成模型、语音模型,并公布了新一代多模态模型abab7的技术架构。


MiniMax创始之初就把多模态作为技术底座的重要能力。最新推出的多模态“全家桶”效果几何?本期「云启伙伴」带你一起测评。


开始之前,先来看看受邀参加MiniMax伙伴日的云启合伙人陈昱来自现场的反馈。


 陈昱 云启合伙人


作为国内为数不多已开放使用的“现货”视频生成模型abab-video-1是全场焦点从效果来看超出我们的预期,处于国内视频生成模型的第一梯队当天推出的音乐、语音模型也都比较成熟,音乐生成模型在现场的演示非常惊艳。采用了线性注意力机制、能更快更低成本处理长文本多模态模型abab7也值得期待。


还有一组数据也值得关注:



简而言之,MiniMax是国内日处理量、交互时长最高的大模型公司。这一次,它带来了新的技术突破。



视频生成模型:abab-video-1 



这个名为《魔法硬币》的短片是 MiniMax视频生成模型的Demo。城堡、冰原、雨林、魔法世界……不论是实景还是幻境,视频的生成效果都颇具电影感。


此次推出的video-01能够根据文本提示生成高分辨率、高帧率的原生视频,其在压缩率、文本响应性和风格多样性上都有较好表现,可根据文字生成6s时长的视频内容,并支持生成文字。目前用户可在海螺AI官网(www.hailuoai.com/video)免费体验生成包含文字的视频,最高支持原生1280*720的25fps。


9月第一周,我们也以“开学”为主题,请video-01帮我们创作了一段机器人背着书包去上学的视频。只用了2分钟左右的时间,我们就收到了下面的片段。欢迎点击播放,看看和你生成的版本哪个更好?




音乐生成模型:abab-music-1 


来自云启资本音频:新学期的节奏(MiniMax生成歌曲)


上面这首以“开学”为主题的嘻哈歌曲是我们用MiniMax音乐生成模型abab-music-1创作的。该模型支持多功能端到端音乐生成,可用于合成多种音乐形式,包括纯音乐、清唱作品,大大简化音乐录制与创作过程,作词作曲都能包揽。


音乐生成功能目前也面向用户免费开放,可通过海螺AI网页版体验流行、都市、摇滚、蓝调等多种曲风音乐等你“拆盲盒”。



语音生成模型:abab-speech-1 


更新后的abab-speech-1支持包括粤语、韩语、⻄班牙语、日语等多语种,生成语句超拟人,情绪变化细腻自然。我们也尝试生成了两条效果不同的音频,可以听听看。


来自云启资本音频:MiniMax生成-女声版

来自云启资本音频:MiniMax生成-男声版



新一代MOE+Linear Attention模型技术


伙伴日当天还发布了新一代模型技术——MOE+Linear Attention,该技术能更快更低成本地处理长文本,由其支持的多模态模型abab7将在近期上线


该技术支持高效训练海量数据,实用性和响应速度极大提升,大幅减少了大模型的训练和推理成本相比于通用Transformer架构,在128K的序列长度下,新架构成本减少90%以上,且序列长度越长,优势越明显。


在与GPT-4o同一代模型能力对比上,新一代abab模处理10万token时效率翻倍提升,并且随着长度越长,提升越明显。



未来重要的优化方向



伙伴日现场,MiniMax创始人、CEO闫俊杰也分享了MiniMax的初心与愿景。关于AI未来的重要优化方向,他提及了三个方面:


1.如何让模型的错误率持续降低:目前的模型还是有相对较高的错误率,有时惊艳,有时不靠谱。这也是制约模型处理复杂任务的原因,因为复杂的任务往往需要多个步骤,而较高的错误率导致失败率的指数增加。降低模型的错误率,是一个能够让模型处理复杂任务的一个最根本的前提,这个也是能够来增加用户使用深度的核心手段。


2. 无限长的输入和输出:为什么这件事情重要?很简单的原因,就是人具备这个能力,可以处理无限长度的输入跟输出。传统大模型计算需求随着输入输出处理量平方上升,很快就会达到算力无法负担的上限,需要底层创新解决。


3. 多模态:从生活中不难发现,文字交互只是很小的一部分,更多的是语音和视频交互。多模态的内容,比如声音,图文和视频,已经成为信息传递的主流。为了能够提高渗透率,多模态就是必经之路。


闫俊杰的更多走心分享,可点击“阅读原文”了解详情。











阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

MiniMax 多模态 视频生成 音乐生成 语音生成
相关文章