原创 小茸茸 2024-12-30 09:42 重庆
商汤科技统一多模态运动生成大模型;腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频;智谱开源 CogAgent-9B-20241220;Aria-UI:领先的 GUI 多模态模型,AndroidWorld 基准测试第一
商汤科技推出 Large Motion Model:统一多模态运动生成大模型
Large Motion Model[1] 是商汤科技推出的统一多模态运动生成模型。这一创新模型以运动为核心,构建了一个多模态框架,将主流运动生成任务整合为一个通用模型。
用户只需输入描述,即可生成一段运动姿势视频。目前,该模型已完全开源,支持多模态输入进行控制。你们可以在在线演示[2]亲自体验一下。
腾讯开源 StereoCrafter:一键将普通视频转为 3D 视频
StereoCrafter[3] 是腾讯开源的一个强大模型,能够将任何普通视频转换为红蓝、VR 或左右格式的 3D 视频。
官方还演示了将生成的视频在 Apple Vision Pro 中播放的效果,展示了其在实际应用中的潜力。该模型现已在 Hugging Face 上开放,感兴趣的朋友可以亲自跑一下。
智谱开源 CogAgent-9B-20241220:提升 GUI 感知与多语言交互能力
智谱最新开源的 CogAgent[4]-9B-20241220 模型,类似于 Claude Computer use,在多个方面实现了显著提升。
新版本在 GUI 感知、推理预测准确性、动作空间完善性以及任务的普适和泛化性上都有大幅进步。
此外,CogAgent 能够处理中英文双语的屏幕截图和语言交互,极大地扩展了其应用范围。官方演示中,展示了如何在 MacOS 上自动调用微信给朋友发消息以及通过邮箱发送邮件。不过,目前的操作速度还比较慢,且需要提前为 AI 打开相关窗口,在 AI 操作过程中人类无法介入。
Aria-UI:领先的 GUI 多模态模型,AndroidWorld 基准测试第一
Aria-UI[5] 是一个专为 GUI 基础设计的大型多模态模型,类似于 Claude Computer use。它无需 HTML 或 AXTree 输入,采用纯视觉方法。作为 Moe 模型其速度也非常快。
在 AndroidWorld 基准测试中以 44.8% 的成功率排名第一。
官方提供了一个在线演示[6],确实速度挺快的,不过该技术是底层模型,没有封装成可交互的应用。
三花新年暖心祝福
Q&A
1. 关于礼物
抽奖礼品
都是自己制作打包的,为你的 2025 送一份小心意?祝三花发大财,明年多多回馈大家!
2. 关于活动时间
2024.12.30~2025.1.1在 2024 最后两天 和 2025 新年第一天, 3天 时间参与 三花AI 的新年抽奖活动
3. 关于名单什么时候公布?
2025年的第一个工作日 1.2 开奖,订阅号 三花AI 的早报也会提醒你? 抽中奖品的宝子们记得 填写地址领奖
4. 关于礼品什么时候邮寄?
小茸茸将在 15 个工作日内为你邮寄
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!
Reference
[1]
Large Motion Model GitHub 项目: https://github.com/mingyuan-zhang/LMM
[2]Large Motion Model 在线演示: https://huggingface.co/spaces/mingyuan/LMM
[3]StereoCrafter 项目官网: https://stereocrafter.github.io/
[4]CogAgent GitHub 项目主页: https://github.com/THUDM/CogAgent/blob/main/README_zh.md
[5]Aria-UI 官网: https://ariaui.github.io/
[6]Aria-UI 在线演示: https://huggingface.co/spaces/Aria-UI/Aria-UI