原创 小茸茸 2024-09-20 09:19 重庆
微软 GRIN MoE:6.6B 激活参数模型;Moshi: 对标 ChatGPT 的开源实时语音模型;Tripo 2.0:可能是最强 3D 模型生成服务;阿里通义千问:Qwen2.5 基础模型大派对;腾讯 EzAudio:文生音频模型
快手可灵:发布 1.5 全新版本和运动笔刷
昨天快手发布了可灵 1.5[1],支持直出 1080p 视频,且价格不变,可灵 1.5 模型和可灵 1.0 模型相比,在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。
可灵 1.0 模型新增了运动笔刷功能,上传图片后,最多可为 6 个元素指定运动轨迹,最多支持生成 5s 视频。
需要注意的是,1.5 模型暂时不支持运镜控制和新功能运动笔刷。
微软 GRIN MoE:6.6B 激活参数模型
GRIN MoE[2] 是微软开源的一款 MoE[3] 模型,使用了 SparseMixer-v2[4] 而非传统 MoE,仅用 6.6B 激活参数(共 16x3.8B),在编程和数学任务上能力出色,适用于内存/计算资源受限以及对延迟敏感的场景。
该模型的 MMLU 基准测试得分为 79.4,远超参数量更高的 Mixtral 8x22B 等一众模型,你可以在 GRIN-MoE-Demo/GRIN-MoE[5]直接试用。
Moshi: 对标 ChatGPT 的开源实时语音模型
Moshi[6] 早在 7 月初就介绍过了,恍如隔世啊,由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,当时引起了不小的热度。
现如今总算是开源 kyutai-labs/moshi[7] 了,官方的演示还是在 moshi.chat[8],试用下来没啥太多变化。
Tripo 2.0:可能是最强 3D 模型生成服务
Tripo AI[9] 咱之前也介绍过了,当时算是性能最好的 3D 生成模型,可惜是闭源的。
昨天它们发布了 2.0 版本,效果更好,速度更快,从视频演示来看,生成能力还是吊打开源模型。
阿里通义千问:Qwen2.5 基础模型大派对
相信大家都已经知道了,阿里昨天开源了 Qwen2.5[10] 系列模型,除了 32B 和 72B 的版本外均可商用。
今天凌晨,知名基准测试分析平台 Artificial Analysis[11] 终于更新了其具体排名数据,72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%,在数学能力上超越 GPT-4o,编程能力上超越 GPT-4o-mini。
对比 Llama 3.1 405B,它体积小,同硬件水平运行速度快,支持 128k 的上下文窗口和 8k 输出 tokens。
此外,模型的价格也相对比较低,1M Tokens 输入输出的价格分别为 0.38/0.4 美元,GPT4-o 为 2.5/10 美元
腾讯 EzAudio:文生音频模型
EzAudio[12]是一个期货开源的文生音频模型,能够生成环境音、动物、音乐和音效等声音,同类模型三花介绍过挺多的,可以搜搜看。
在这里OpenSound/EzAudio[13]可以直接试用
❝今天又到周五,老规矩开一下赞赏,如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,可以打赏个 1 元,给不给,给多少都随意,手头紧可以多看几期,来日方长!
Reference
[1]
可灵 1.5: https://klingai.kuaishou.com/release-notes
[2]GRIN MoE: https://github.com/microsoft/GRIN-MoE
[3]MoE: https://huggingface.co/blog/zh/moe
[4]SparseMixer-v2: https://arxiv.org/html/2409.12136v1#Pt1
[5]GRIN-MoE-Demo/GRIN-MoE: https://huggingface.co/spaces/GRIN-MoE-Demo/GRIN-MoE
[6]Moshi: https://sanhua.himrr.com/news/417ff542-d337-43d6-93bd-e830ce468fe6
[7]kyutai-labs/moshi: https://github.com/kyutai-labs/moshi
[8]moshi.chat: https://moshi.chat/
[9]Tripo AI: https://sanhua.himrr.com/news/4b543aee-0196-4c82-a627-de1c4b2fa9fc
[10]Qwen2.5: https://qwenlm.github.io/zh/blog/qwen2.5/
[11]Artificial Analysis: https://artificialanalysis.ai/
[12]EzAudio: https://haidog-yaqub.github.io/EzAudio-Page/
[13]OpenSound/EzAudio: https://huggingface.co/spaces/OpenSound/EzAudio