三花AI 2024年12月30日
体验一键将普通视频转为 3D 视频;商汤科技统一多模态运动生成大模型;智谱开源提升 GUI感知与多语言交互能力;三花新年暖心祝福
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了近期AI领域多模态模型的重大进展,包括商汤科技开源的统一多模态运动生成模型Large Motion Model,腾讯开源的StereoCrafter模型,可以将普通视频转换为3D视频;智谱开源的CogAgent-9B模型,提升了GUI感知和多语言交互能力;以及Aria-UI模型在AndroidWorld基准测试中排名第一。这些模型在运动生成、视频处理、GUI交互等领域都展现了强大的能力,并已开源供研究者和开发者使用。此外,文章还提到了一个AI新年抽奖活动,为读者送上新年祝福。

🏃商汤科技Large Motion Model:统一多模态运动生成模型,以运动为核心,将主流运动生成任务整合为一个通用模型,用户可通过描述生成运动姿势视频,并已完全开源。

🎬腾讯StereoCrafter:可以将普通视频一键转换为红蓝、VR或左右格式的3D视频,并可在Apple Vision Pro中播放,已在Hugging Face上开放。

🧠智谱CogAgent-9B:类似于Claude Computer use,在GUI感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步,能处理中英文双语的屏幕截图和语言交互。

📱Aria-UI:专为GUI基础设计的大型多模态模型,无需HTML或AXTree输入,采用纯视觉方法,在AndroidWorld基准测试中排名第一,速度快,但未封装成可交互应用。

原创 小茸茸 2024-12-30 09:42 重庆

商汤科技统一多模态运动生成大模型;腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频;智谱开源 CogAgent-9B-20241220;Aria-UI:领先的 GUI 多模态模型,AndroidWorld 基准测试第一

商汤科技推出 Large Motion Model:统一多模态运动生成大模型

Large Motion Model[1] 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心,构建了一个多模态框架,将主流运动生成任务整合为一个通用模型。

用户只需输入描述,即可生成一段运动姿势视频。目前,该模型已完全开源,支持多模态输入进行控制。你们可以在在线演示[2]亲自体验一下。

腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频

StereoCrafter[3] 是腾讯开源的一个强大模型,能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。

官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果,展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放,感兴趣的朋友可以亲自跑一下。

智谱开源 CogAgent-9B-20241220:提升 GUI 感知与多语言交互能力

谱最新开源的 CogAgent[4]-9B-20241220 模型,类似于 Claude Computer use,在多个方面实现了显著提升。

新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。

此外,CogAgent 能够处理中英文双语的屏幕截图和语言交互,极大地扩展了其应用范围。官方演示中,展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过,目前的操作速度还比较慢,且需要提前为 AI 打开相关窗口,在 AI 操作过程中人类无法介入。

Aria-UI:领先的 GUI 多模态模型,AndroidWorld 基准测试第一

Aria-UI[5] 是一个专为 GUI 基础设计的大型多模态模型,类似于 Claude Computer use。它无需 HTML 或 AXTree 输入,采用纯视觉方法。作为 Moe 模型其速度也非常快。

在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。

官方提供了一个在线演示[6],确实速度挺快的,不过该技术是底层模型,没有封装成可交互的应用。

三花新年暖心祝福

Q&A

1. 关于礼物

抽奖礼品

都是自己制作打包的,为你的 2025 送一份小心意?祝三花发大财,明年多多回馈大家!

2. 关于活动时间

2024.12.30~2025.1.1在 2024 最后两天 和 2025 新年第一天, 3天 时间参与 三花AI 的新年抽奖活动

3. 关于名单什么时候公布?

2025年的第一个工作日 1.2 开奖,订阅号 三花AI 的早报也会提醒你? 抽中奖品的宝子们记得 填写地址领奖

4. 关于礼品什么时候邮寄?

小茸茸将在 15 个工作日内为你邮寄


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

Large Motion Model GitHub 项目: https://github.com/mingyuan-zhang/LMM

[2]

Large Motion Model 在线演示: https://huggingface.co/spaces/mingyuan/LMM

[3]

StereoCrafter 项目官网: https://stereocrafter.github.io/

[4]

CogAgent GitHub 项目主页: https://github.com/THUDM/CogAgent/blob/main/README_zh.md

[5]

Aria-UI 官网: https://ariaui.github.io/

[6]

Aria-UI 在线演示: https://huggingface.co/spaces/Aria-UI/Aria-UI


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

多模态模型 运动生成 3D视频 GUI交互 开源模型
相关文章