体验一键将普通视频转为 3D 视频；商汤科技统一多模态运动生成大模型；智谱开源提升 GUI感知与多语言交互能力；三花新年暖心祝福

原创小茸茸 2024-12-30 09:42 重庆

商汤科技统一多模态运动生成大模型；腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频；智谱开源 CogAgent-9B-20241220；Aria-UI：领先的 GUI 多模态模型，AndroidWorld 基准测试第一

商汤科技推出 Large Motion Model：统一多模态运动生成大模型

Large Motion Model^[1] 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心，构建了一个多模态框架，将主流运动生成任务整合为一个通用模型。

用户只需输入描述，即可生成一段运动姿势视频。目前，该模型已完全开源，支持多模态输入进行控制。你们可以在在线演示^[2]亲自体验一下。

腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

StereoCrafter^[3] 是腾讯开源的一个强大模型，能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。

官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果，展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放，感兴趣的朋友可以亲自跑一下。

智谱开源 CogAgent-9B-20241220：提升 GUI 感知与多语言交互能力

智谱最新开源的 CogAgent^[4]-9B-20241220 模型，类似于 Claude Computer use，在多个方面实现了显著提升。

新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。

此外，CogAgent 能够处理中英文双语的屏幕截图和语言交互，极大地扩展了其应用范围。官方演示中，展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过，目前的操作速度还比较慢，且需要提前为 AI 打开相关窗口，在 AI 操作过程中人类无法介入。

Aria-UI：领先的 GUI 多模态模型，AndroidWorld 基准测试第一

Aria-UI^[5] 是一个专为 GUI 基础设计的大型多模态模型，类似于 Claude Computer use。它无需 HTML 或 AXTree 输入，采用纯视觉方法。作为 Moe 模型其速度也非常快。

在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。

官方提供了一个在线演示^[6]，确实速度挺快的，不过该技术是底层模型，没有封装成可交互的应用。

三花新年暖心祝福

Q&A

1. 关于礼物

抽奖礼品

都是自己制作打包的，为你的 2025 送一份小心意?祝三花发大财，明年多多回馈大家！

2. 关于活动时间

2024.12.30~2025.1.1在 2024 最后两天和 2025 新年第一天， 3天时间参与 三花AI 的新年抽奖活动

3. 关于名单什么时候公布？

2025年的第一个工作日 1.2 开奖，订阅号 三花AI 的早报也会提醒你? 抽中奖品的宝子们记得 填写地址领奖

4. 关于礼品什么时候邮寄？

小茸茸将在 15 个工作日内为你邮寄

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

Reference

[1]

Large Motion Model GitHub 项目: https://github.com/mingyuan-zhang/LMM

[2]

Large Motion Model 在线演示: https://huggingface.co/spaces/mingyuan/LMM

[3]

StereoCrafter 项目官网: https://stereocrafter.github.io/

[4]

CogAgent GitHub 项目主页: https://github.com/THUDM/CogAgent/blob/main/README_zh.md

[5]

Aria-UI 官网: https://ariaui.github.io/

[6]

Aria-UI 在线演示: https://huggingface.co/spaces/Aria-UI/Aria-UI

阅读原文

跳转微信打开

商汤科技推出 Large Motion Model：统一多模态运动生成大模型

腾讯开源 StereoCrafter：一键将普通视频转为 3D 视频

智谱开源 CogAgent-9B-20241220：提升 GUI 感知与多语言交互能力

Aria-UI：领先的 GUI 多模态模型，AndroidWorld 基准测试第一

三花新年暖心祝福

Q&A

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签