三花AI 2024年11月28日
阿里通义开源最强国产推理模型;OpenAI Sora API 泄露事件简单回顾;ShowUI: GUI 自动化 Agent
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了近期AI领域的一些重要进展,包括ShowUI GUI自动化Agent、OneDiffusion多功能生图模型、Qwen2vl-Flux在线演示、OpenAI Sora API泄露事件以及阿里通义开源QwQ-32B-Preview推理模型。其中,ShowUI通过自然语言控制AI实现GUI自动化操作;OneDiffusion即将发布,支持多种生图功能;Qwen2vl-Flux提供mini版本在线演示;OpenAI的Sora API泄露引发争议;阿里通义开源的QwQ-32B-Preview推理模型性能强劲,可商用。这些进展都展现了AI领域持续快速发展,以及在不同应用场景中的不断突破。

🎨ShowUI:一个用于GUI自动化的视觉-语言-操作模型,能够通过自然语言控制AI进行点击、输入、选择等操作,准确率达到75.1%,代码已开源。

🖼️OneDiffusion:一个即将发布的多功能生图模型,支持文生图、ID一致性、单图生多视角等多种功能,还具备类似ControlNet的条件生成能力。

🚀Qwen2vl-Flux:阿里推出的图像生成模型,目前提供mini版本在线演示,完整版本能力更强,体验效果不错。

⚠️OpenAI Sora API泄露:OpenAI的Sora视频生成模型API泄露,引发了关于AI模型开源和控制的讨论,部分艺术家对OpenAI的行为表示不满。

💡QwQ-32B-Preview:阿里通义开源的推理模型,性能接近o1-mini,尤其在数学性能上超越o1-preview,并且是少数可商用的推理模型之一。

原创 小茸茸 2024-11-28 09:16 重庆

OneDiffusion:多功能生图模型即将发布;Qwen2vl-Flux 在线演示:体验 mini 版本的强大功能;OpenAI 的 Sora API 泄露事件简单回顾;阿里通义开源 QwQ-32B-Preview:最强国产推理模型

ShowUI:GUI 自动化 Agent

ShowUI[1] 是一个用于 GUI 自动化的视觉-语言-操作模型,类似于 Computer Use,能够通过自然语言来控制 AI 实现点击、输入、选择、滚动等操作。根据相关论文的描述,该模型实现了 75.1% 的准确率,性能提高了 1.4 倍,目前代码已经开源。

OneDiffusion:多功能生图模型即将发布

OneDiffusion[2] 是一个多功能生图模型,不仅支持文生图、ID 一致性、单图生多视角、文生多视角,还具备双向生成能力。例如,它可以实现类似 ControlNet 的条件生成(如深度、姿势、布局、语义等),同时也能将图片预处理为这些条件。官方计划于12月初发布模型和代码,敬请关注。

Qwen2vl-Flux 在线演示:体验 mini 版本的强大功能

Qwen2vl-Flux[3]现在提供了一个在线演示[4],效果十分不错,就像 IpAdapter 一样强。作者表示,这是一个 mini 版本,用于快速出图,完整版本的能力更强。

OpenAI 的 Sora API 泄露事件简单回顾

昨天 OpenAI 的 Sora API 泄露的新闻沸沸扬扬,给大伙总结下:一个名为 PR Puppets 的 Hugging Face 组织发布了一个 Space,该 Space 能够通过提示词生成视频,并且代码是开源的。人们发现,这个 Space 实际上是通过调用 OpenAI 还未正式发布的 Sora 视频生成模型的接口实现的。

随后,该组织发布了一封公开信[5],声称 OpenAI 暂时关闭了 Sora 对所有艺术家的抢先体验,并呼吁大家一起抵制 OpenAI 的霸主行为。

公开信中还展示了一些‘偷跑’的视频,具体效果你们可以自己去看判断下。有人猜测这些可能是 Sora 的 Turbo 模型生成的,因此速度较快,但效果差点。

阿里通义开源 QwQ-32B-Preview:最强国产推理模型

QwQ-32B-Preview[6] 是阿里通义团队最新开源的推理模型,目前仍处于预览阶段。尽管在安全和语言混用等方面存在一定的局限性,但其性能已能与 o1-mini 相媲美,尤其在数学性能上更是超越了 o1-preview。

值得一提的是,QwQ 也是为数不多的可商用推理模型之一,而且这个名字确实很可爱,不是吗?


如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注点赞在看收藏分享 五连警告,这对我真的很重要

现在加入 AI 日报群,不会漏掉消息嗷

Reference

[1]

ShowUI 项目: https://github.com/showlab/ShowUI

[2]

OneDiffusion 模型官网: https://github.com/lehduong/OneDiffusion

[3]

Qwen2vl-Flux 往期介绍: https://sanhua.himrr.com/news/08c90309-e0cd-426f-964d-304a4c35f32e

[4]

Qwen2vl-Flux 在线演示: https://huggingface.co/spaces/Djrango/qwen2vl-flux-mini-demo

[5]

PR Puppets 发布的公开信: https://huggingface.co/spaces/PR-Puppets/PR-Puppet-Sora

[6]

QwQ-32B-Preview 官方博客: https://qwenlm.github.io/zh/blog/qwq-32b-preview/


阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 生图模型 推理模型 GUI自动化 开源
相关文章