三花AI 2024年10月21日
快手可灵1.5 全新版本运动笔刷;微软 GRIN MoE 6.6B 激活参数模型;最强 3D 模型;阿里通义千问基础模型大派对
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了多种AI领域的新成果,包括快手可灵1.5的全新版本及运动笔刷,微软GRIN MoE模型,Moshi开源实时语音模型,Tripo 2.0 3D模型生成服务,阿里通义千问Qwen2.5基础模型,腾讯EzAudio文生音频模型等,涵盖了模型的特点、性能、应用场景等方面。

🎥快手可灵1.5是快手发布的新版本,支持直出1080p视频,价格不变,在画面质量、动态质量、文本指令遵从效果等方面较1.0版本有显著提升,1.0版本新增运动笔刷功能,但1.5版本暂不支持运镜控制和新功能运动笔刷。

💻微软GRIN MoE是一款开源的MoE模型,使用SparseMixer-v2而非传统MoE,仅用6.6B激活参数,在编程和数学任务上能力出色,适用于内存/计算资源受限及对延迟敏感的场景,MMLU基准测试得分79.4,远超其他模型,可在指定网址直接试用。

🎙Moshi是由法国AI实验室Kyutai推出的对标ChatGPT的开源实时语音多模态模型,现已开源,官方演示在moshi.chat,试用下来变化不大。

🌐Tripo 2.0是性能更好、速度更快的3D模型生成服务,从视频演示来看,生成能力吊打开源模型。

🤖阿里通义千问开源了Qwen2.5系列模型,除部分版本外均可商用,72B模型在MMLU得分仅比参数量更大的Llama 3.1 405B低1%,在数学能力上超越GPT-4o,编程能力上超越GPT-4o-mini,体积小,运行速度快,价格相对较低。

🎵腾讯EzAudio是文生音频模型,能够生成环境音、动物、音乐和音效等声音,可在指定网址直接试用。

原创 小茸茸 2024-09-20 09:19 重庆

微软 GRIN MoE:6.6B 激活参数模型;Moshi: 对标 ChatGPT 的开源实时语音模型;Tripo 2.0:可能是最强 3D 模型生成服务;阿里通义千问:Qwen2.5 基础模型大派对;腾讯 EzAudio:文生音频模型

快手可灵:发布 1.5 全新版本和运动笔刷

昨天快手发布了可灵 1.5[1],支持直出 1080p 视频,且价格不变,可灵 1.5 模型和可灵 1.0 模型相比,在画面质量、动态质量、文本指令遵从效果等方面有显著效果提升。

可灵 1.0 模型新增了运动笔刷功能,上传图片后,最多可为 6 个元素指定运动轨迹,最多支持生成 5s 视频。

需要注意的是,1.5 模型暂时不支持运镜控制和新功能运动笔刷。

微软 GRIN MoE:6.6B 激活参数模型

GRIN MoE[2] 是微软开源的一款 MoE[3] 模型,使用了 SparseMixer-v2[4] 而非传统 MoE,仅用 6.6B 激活参数(共 16x3.8B),在编程和数学任务上能力出色,适用于内存/计算资源受限以及对延迟敏感的场景。

该模型的 MMLU 基准测试得分为 79.4,远超参数量更高的 Mixtral 8x22B 等一众模型,你可以在 GRIN-MoE-Demo/GRIN-MoE[5]直接试用。

Moshi: 对标 ChatGPT 的开源实时语音模型

Moshi[6] 早在 7 月初就介绍过了,恍如隔世啊,由法国的 AI 实验室 Kyutai 推出的实时语音多模态模型,当时引起了不小的热度。

现如今总算是开源 kyutai-labs/moshi[7] 了,官方的演示还是在 moshi.chat[8],试用下来没啥太多变化。

Tripo 2.0:可能是最强 3D 模型生成服务

Tripo AI[9] 咱之前也介绍过了,当时算是性能最好的 3D 生成模型,可惜是闭源的。

昨天它们发布了 2.0 版本,效果更好,速度更快,从视频演示来看,生成能力还是吊打开源模型。

阿里通义千问:Qwen2.5 基础模型大派对

相信大家都已经知道了,阿里昨天开源了 Qwen2.5[10] 系列模型,除了 32B 和 72B 的版本外均可商用。

基准测试

今天凌晨,知名基准测试分析平台 Artificial Analysis[11] 终于更新了其具体排名数据,72B 模型在 MMLU 得分仅比参数量更大的 Llama 3.1 405B 低 1%,在数学能力上超越 GPT-4o,编程能力上超越 GPT-4o-mini。

性能 VS 输出速度,价格

对比 Llama 3.1 405B,它体积小,同硬件水平运行速度快,支持 128k 的上下文窗口和 8k 输出 tokens。

此外,模型的价格也相对比较低,1M Tokens 输入输出的价格分别为 0.38/0.4 美元,GPT4-o 为 2.5/10 美元

腾讯 EzAudio:文生音频模型

EzAudio[12]是一个期货开源的文生音频模型,能够生成环境音、动物、音乐和音效等声音,同类模型三花介绍过挺多的,可以搜搜看。

在这里OpenSound/EzAudio[13]可以直接试用


今天又到周五,老规矩开一下赞赏,如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,可以打赏个 1 元,给不给,给多少都随意,手头紧可以多看几期,来日方长!

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

可灵 1.5: https://klingai.kuaishou.com/release-notes

[2]

GRIN MoE: https://github.com/microsoft/GRIN-MoE

[3]

MoE: https://huggingface.co/blog/zh/moe

[4]

SparseMixer-v2: https://arxiv.org/html/2409.12136v1#Pt1

[5]

GRIN-MoE-Demo/GRIN-MoE: https://huggingface.co/spaces/GRIN-MoE-Demo/GRIN-MoE

[6]

Moshi: https://sanhua.himrr.com/news/417ff542-d337-43d6-93bd-e830ce468fe6

[7]

kyutai-labs/moshi: https://github.com/kyutai-labs/moshi

[8]

moshi.chat: https://moshi.chat/

[9]

Tripo AI: https://sanhua.himrr.com/news/4b543aee-0196-4c82-a627-de1c4b2fa9fc

[10]

Qwen2.5: https://qwenlm.github.io/zh/blog/qwen2.5/

[11]

Artificial Analysis: https://artificialanalysis.ai/

[12]

EzAudio: https://haidog-yaqub.github.io/EzAudio-Page/

[13]

OpenSound/EzAudio: https://huggingface.co/spaces/OpenSound/EzAudio


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

快手可灵 微软GRIN MoE Moshi Tripo 2.0 阿里通义千问 腾讯EzAudio
相关文章