三花AI 03月06日
AI 驱动数学与科学教学动画;谛韵开源音乐生成模型;开源可商用视频生成模型;ComfyUI-Pruna 无损加速 sd 模型推理
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文概括了近期AI领域的多个重要进展。西北工业大学开源的DiffRhythm模型,能快速生成完整歌曲。TIGER AI Lab开发的TheoremExplainAgent,利用AI将数学和科学定理转化为教学动画。Lightricks发布的LTX-Video 0.9.5版本,支持商业用途和更长的视频生成。ComfyUI-Pruna通过编译节点加速Stable Diffusion和Flux模型的推理。谷歌推出基于Gemini 2.0的AI Mode测试版,提升搜索能力。阿里巴巴开源的QwQ-32B推理模型,性能媲美DeepSeek-R1。这些进展涵盖音乐生成、教育动画、视频制作、模型优化和搜索增强等多个方面,预示着AI技术在各个领域的广泛应用。

🎵DiffRhythm谛韵是由西北工业大学ASLP Lab开发的首个基于潜在扩散技术的端到端完整歌曲生成模型,能在10秒左右生成包含人声和伴奏的完整歌曲,最长可达4分45秒,并已开源。

📚TheoremExplainAgent是由TIGER AI Lab开发的AI多智能体,它能将复杂的数学和科学定理转化为易于理解的Manim教学动画,每段动画时长超过5分钟,结合了大语言模型、Manim动画和语音合成技术。

🎬LTX-Video 0.9.5是由Lightricks开发的开源视频生成模型,新版本支持商业用途,新增首尾帧视频生成,最长可生成5秒视频,并支持AMD ROCm,用户可在LTX Studio上试用。

🔍谷歌推出基于 Gemini 2.0 的 AI Mode 测试版,通过更高级的推理、思考和多模态能力帮助用户解决搜索问题,有点类似 Deep Research,目前可在Google Lab申请体验。

原创 小茸茸 2025-03-06 09:44 重庆

TheoremExplainAgent:AI 驱动的数学与科学教学动画;谷歌推出基于 Gemini 2.0 的 AI Mode 测试版;阿里开源 QwQ-32B:320 亿参数推理模型,性能媲美 DeepSeek-R1

DiffRhythm 谛韵: 开源音乐生成模型

DiffRhythm,中文名谛韵,是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)开发的一种 AI 音乐生成模型。

作为全球首个基于潜在扩散技术(Latent Diffusion)的端到端完整歌曲生成模型,DiffRhythm 只需要 8GB VRAM 就能在 10 到 12 秒内生成一首完整歌曲,目前仅支持中英文。

DiffRhythm 能够一次性生成包含人声和伴奏的完整歌曲,就像 Suno 和 Udio 一样,最长能生成 4 分 45 秒的完整歌曲。

最关键的是,DiffRhythm 完全开源,佬们可以在HF上在线体验[1]玩玩看

DiffRhythm 在线体验: https://huggingface.co/spaces/ASLP-lab/DiffRhythm

TheoremExplainAgent:AI 驱动的数学与科学教学动画

TheoremExplainAgent[2](简称 TEA)是由 TIGER AI Lab 开发的一款 AI 多智能体,专门设计用于将复杂的数学和科学定理转化为易于理解的 Manim 教学动画,每段动画时长能超过 5 分钟。

TEA 背后结合了大语言模型(LLM)的推理能力、Manim 动画技术以及语音合成技术。

这个项目和三花的小视频宝的原理差不多,同样也是大模型 + Manim + TTS 哎!唯一的不同就是处理 Manim Scene 时,TEA 是动态的(不可控),而小视频宝是范式的。

我加的几个 Manim 群表示天塌了,哈哈哈。

TheoremExplainAgent GitHub 仓库: https://github.com/TIGER-AI-Lab/TheoremExplainAgent

LTX-Video 0.9.5:开源可商用视频生成模型

LTX-Video[3] 是由 Lightricks 开发的一款基于 AI 的开源视频生成模型,昨天发布了 0.9.5 版本。这个版本支持了商业用途,还新增了首尾帧视频生成,最高可生成 5 秒视频。此外,还支持了对 AMD ROCm 的支持,AMD yes!

佬们可以在官方的 LTX Studio[4] 上试用。

LTX-Video GitHub 项目: https://github.com/Lightricks/LTX-Video
LTX Studio 在线试用: https://app.ltx.studio/ltx-video

ComfyUI-Pruna:无损加速 Stable Diffusion 和 Flux 模型推理

ComfyUI-Pruna[5] 提供了一个ComfyUI的自定义编译节点,能够显著加速 Stable Diffusion(SD)和 Flux 模型的推理过程,同时保持输出质量基本不变。

官方基准测试显示,使用 Pruna 的 “x-fast” 和 “torch_compile” 编译模式,每秒迭代次数(IPS)得到了显著提升,尤其是对 SD 的加速效果尤为明显。

看着还是非常的强,不知道质量影响有多大,有需要的不要错过

ComfyUI-Pruna GitHub 项目主页: https://github.com/PrunaAI/ComfyUI_pruna

谷歌推出基于 Gemini 2.0 的 AI Mode 测试版

Google 在其搜索中引入了两项重要的 AI 功能升级:AI Overviews 的扩展和新的 AI Mode 测试版。

AI Overviews 相信大家在搜索时会经常碰到,而 AI Mode 是基于 Gemini 2.0 的定制版本,有点类似 Deep Research,能够通过更高级的推理、思考和多模态能力帮助用户解决搜索问题。

目前,AI Mode 还在实验阶段,你可以在Google Lab[6]中申请体验。

我的号提示“您的账号目前无法使用搜索实验室”,佬们可以试试

Google Lab 实验页面: https://labs.google.com/search/experiment/22

阿里开源 QwQ-32B:320 亿参数推理模型,性能媲美 DeepSeek-R1

阿里开源了其最新的 QwQ-32B 推理模型,这是一款拥有 320 亿参数的先进模型。

QwQ-32B 的性能可与具备 6710 亿参数(其中 370 亿被激活)的 DeepSeek-R1 相媲美,采用了 Apache 2.0 开源协议。

更多详情可以查看官方博客[7],现在已经可以在QwenChat[8]上体验这一模型了。

QwQ-32B 官方博客: https://qwenlm.github.io/zh/blog/qwq-32b/
QwenChat 体验页面: https://chat.qwen.ai/

如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI模型 音乐生成 教育动画 视频生成 搜索增强
相关文章