快手可灵1.5 全新版本运动笔刷；微软 GRIN MoE 6.6B 激活参数模型；最强 3D 模型；阿里通义千问基础模型大派对

原创小茸茸 2024-09-20 09:19 重庆

微软 GRIN MoE：6.6B 激活参数模型；Moshi: 对标 ChatGPT 的开源实时语音模型；Tripo 2.0：可能是最强 3D 模型生成服务；阿里通义千问：Qwen2.5 基础模型大派对；腾讯 EzAudio：文生音频模型

快手可灵：发布 1.5 全新版本和运动笔刷

昨天快手发布了可灵 1.5^[1]，支持直出 1080p 视频，且价格不变，可灵 1.5 模型和可灵 1.0 模型相比，在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。

可灵 1.0 模型新增了运动笔刷功能，上传图片后，最多可为 6 个元素指定运动轨迹，最多支持生成 5s 视频。

需要注意的是，1.5 模型暂时不支持运镜控制和新功能运动笔刷。

微软 GRIN MoE：6.6B 激活参数模型

GRIN MoE^[2] 是微软开源的一款 MoE^[3] 模型，使用了 SparseMixer-v2^[4] 而非传统 MoE，仅用 6.6B 激活参数（共 16x3.8B），在编程和数学任务上能力出色，适用于内存/计算资源受限以及对延迟敏感的场景。

该模型的 MMLU 基准测试得分为 79.4，远超参数量更高的 Mixtral 8x22B 等一众模型，你可以在 GRIN-MoE-Demo/GRIN-MoE^[5]直接试用。

Moshi: 对标 ChatGPT 的开源实时语音模型

Moshi^[6] 早在 7 月初就介绍过了，恍如隔世啊，由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型，当时引起了不小的热度。

现如今总算是开源 kyutai-labs/moshi^[7] 了，官方的演示还是在 moshi.chat^[8]，试用下来没啥太多变化。

Tripo 2.0：可能是最强 3D 模型生成服务

Tripo AI^[9] 咱之前也介绍过了，当时算是性能最好的 3D 生成模型，可惜是闭源的。

昨天它们发布了 2.0 版本，效果更好，速度更快，从视频演示来看，生成能力还是吊打开源模型。

阿里通义千问：Qwen2.5 基础模型大派对

相信大家都已经知道了，阿里昨天开源了 Qwen2.5^[10] 系列模型，除了 32B 和 72B 的版本外均可商用。

今天凌晨，知名基准测试分析平台 Artificial Analysis^[11] 终于更新了其具体排名数据，72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%，在数学能力上超越 GPT-4o，编程能力上超越 GPT-4o-mini。

对比 Llama 3.1 405B，它体积小，同硬件水平运行速度快，支持 128k 的上下文窗口和 8k 输出 tokens。

此外，模型的价格也相对比较低，1M Tokens 输入输出的价格分别为 0.38/0.4 美元，GPT4-o 为 2.5/10 美元

腾讯 EzAudio：文生音频模型

EzAudio^[12]是一个期货开源的文生音频模型，能够生成环境音、动物、音乐和音效等声音，同类模型三花介绍过挺多的，可以搜搜看。

在这里OpenSound/EzAudio^[13]可以直接试用

❝
今天又到周五，老规矩开一下赞赏，如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，可以打赏个 1 元，给不给，给多少都随意，手头紧可以多看几期，来日方长！

Reference

[1]

可灵 1.5: https://klingai.kuaishou.com/release-notes

[2]

GRIN MoE: https://github.com/microsoft/GRIN-MoE

[3]

MoE: https://huggingface.co/blog/zh/moe

[4]

SparseMixer-v2: https://arxiv.org/html/2409.12136v1#Pt1

[5]

GRIN-MoE-Demo/GRIN-MoE: https://huggingface.co/spaces/GRIN-MoE-Demo/GRIN-MoE

[6]

Moshi: https://sanhua.himrr.com/news/417ff542-d337-43d6-93bd-e830ce468fe6

[7]

kyutai-labs/moshi: https://github.com/kyutai-labs/moshi

[8]

moshi.chat: https://moshi.chat/

[9]

Tripo AI: https://sanhua.himrr.com/news/4b543aee-0196-4c82-a627-de1c4b2fa9fc

[10]

Qwen2.5: https://qwenlm.github.io/zh/blog/qwen2.5/

[11]

Artificial Analysis: https://artificialanalysis.ai/

[12]

EzAudio: https://haidog-yaqub.github.io/EzAudio-Page/

[13]

OpenSound/EzAudio: https://huggingface.co/spaces/OpenSound/EzAudio

阅读原文

跳转微信打开

快手可灵：发布 1.5 全新版本和运动笔刷

微软 GRIN MoE：6.6B 激活参数模型

Moshi: 对标 ChatGPT 的开源实时语音模型

Tripo 2.0：可能是最强 3D 模型生成服务

阿里通义千问：Qwen2.5 基础模型大派对

腾讯 EzAudio：文生音频模型

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签