三花AI 2024年10月21日
微软 BitNet:CPU 加速运行 LLM 新突破;文本+3D 模型引导视频生成;高效分离人声与伴奏开源工具;文字处理新标杆
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了多种AI领域的创新成果,包括Playground V3图形设计模型的文字处理能力、DeepSeek开源多模态模型Janus、Meta Spirit LM多模态语言模型、微软BitNet加速运行LLM的技术、UVR5 UI分离人声与伴奏的工具以及Tex4D文本+3D模型引导视频生成技术。

🎨Playground V3是专注于图形设计的模型,其文字处理能力超越现有模型,V4版本已在研发中。

🌐DeepSeek推出的Janus是首个多模态模型,解耦视觉编码,适用于多模态理解和生成,允许商用。

🎙Meta的Spirit LM是能自由混合文本和语音的多模态语言模型,支持文本和语音输入输出,但开源模型推理能力一般。

🚀微软的BitNet是无损加速运行LLM的技术,在ARM和x86 CPU上有显著加速,未来计划扩展至NPU和GPU。

🎵UVR5 UI是基于python-audio-separator的开源WebUI,支持大量模型和批处理功能,Colab版本体验更好。

📽Tex4D将3D模型与视频生成模型结合,能在不同视角和帧之间保持一致性。

原创 小茸茸 2024-10-21 09:25 重庆

Playground V3图形设计模型的文字处理新标杆;DeepSeek 开源多模态模型 Janus;Meta Spirit LM自由混合文本和语音多模态模型;UVR5 UI高效分离人声与伴奏开源工具;Tex4D文本+3D 模型引导视频生成

Playground V3:图形设计模型的文字处理新标杆

Playground V3[1] 是一个专注于图形设计的模型,之前公开测试了 beta 版本。最近,其创始人发布了一段宣传片、技术报告和基准测试,展示了该模型在文字处理能力上全方位超越现有的一众模型,包括最新的 Flux pro 和 Ideogram 2.0。创始人还透露,V4 版本已经在研发中,关注我,为你持续跟进最新动态。

DeepSeek 推出开源多模态模型 Janus

Janus[2] 是 DeepSeek 推出的首个多模态模型,一个基于 DeepSeek-LLM-1.3b-base 和 SigLIP-L 的 1.3B MLLM,解耦了视觉编码,适用于多模态理解和生成。此模型基于 DeepSeek 1.0 开源许可协议,完全允许商用,是 DeepSeek 在多模态领域的一大步!

Meta Spirit LM:自由混合文本和语音的多模态模型

Spirit LM[3] 是 Meta 的首个能够自由混合文本和语音的多模态语言模型。它不仅理解语言的含义,还能捕捉并再现说话的音调、情感和风格。Spirit LM 支持文本和语音的输入输出,分为 Base 和 Expressive 两个版本。不过开源的模型 7B 参数量,推理能力一般。

微软 BitNet:CPU 加速运行 LLM 的新突破

BitNet[4] 是微软开源的一项技术,旨在无损加速运行大型语言模型(LLM)。与 llama.cpp 相比,BitNet 在 ARM CPU 上实现了 1.37 倍到 5.07 倍的加速,而在 x86 CPU 上则可实现 2.37 倍到 6.17 倍的加速。官方提供了一段演示视频,速度非常的快。目前,BitNet 仅支持 CPU,但未来计划扩展至 NPU 和 GPU。关注我,为你持续跟进最新动态。

UVR5 UI:高效分离人声与伴奏的开源工具

UVR5 UI[5] 是基于 python-audio-separator[6] 的开源 WebUI,支持大量模型和批处理功能。如果你需要分离人声和伴奏,这款工具绝对不容错过。不过,要注意的是,HF Space 上的版本运行速度较慢,建议直接使用 Colab 版本以获得更好的体验。

Tex4D:文本+3D 模型引导视频生成

Tex4D[7] 是一项创新技术,它巧妙地将 3D 模型与视频生成模型相结合,能够在不同视角和帧之间保持一致性。看着非常不错,角色一致性新思路。


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

Playground V3 官网: https://playground.com/pg-v3

[2]

Janus 模型: https://huggingface.co/deepseek-ai/Janus-1.3B

[3]

Spirit LM 官网: https://speechbot.github.io/spiritlm/

[4]

BitNet 项目主页: https://github.com/microsoft/BitNet

[5]

UVR5 UI 官网: https://huggingface.co/spaces/TheStinger/UVR5_UI

[6]

python-audio-separator 项目主页: https://github.com/nomadkaraoke/python-audio-separator

[7]

Tex4D 项目源码: https://github.com/ZqlwMatt/Tex4D


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Playground V3 DeepSeek Janus Meta Spirit LM 微软 BitNet UVR5 UI Tex4D
相关文章