MMaDA 多模态扩散模型实现文本推理+视觉理解+文生图
MMaDA[1] 是一款开源的多模态扩散模型,同时具有文字推理、图片理解、文字生成图片的能力。
感兴趣的佬们可以通过官方的在线演示[2]体验。
Visual Planning:突破文本依赖的纯视觉推理模型
传统多模态大模型本质是视觉输入然后使用文本推理,而 Visual Planning[3] 直接通过图像序列进行推理,不依赖于文本。
该方法实现了真正的纯视觉推理范式,目前相关论文已正式发布(但代码尚未开源)。
Cua:基于 Docker 容器的高性能 Computer-Use Agents
Cua[4] 是一个开源项目,基于 Docker 容器技术构建的 AI 代理框架。它允许 AI 代理在隔离的 Docker 容器环境中运行,可以与 OpenAI、Anthropic 等主流大语言模型无缝配合使用。
非常看好 Cua,它解决了 AI 代理与操作系统交互的安全性问题,同时几乎不会造成性能损失。
Pixel Reasoner:像素空间推理的视觉语言模型
Pixel-Reasoner[5] 是一个基于 Qwen2 的开源视觉语言模型,在像素级视觉理解和推理能力上实现了显著突破。
该模型不仅能全局理解整个画布内容,还能通过局部放大功能实现精细化的细节分析。
官方演示[6]效果不错,强烈推荐佬们都去玩玩看。
Cutemorphic:基于 gpt-image-1 的免费 3D 风格头像生成器
Cutemorphic[7] 是一个完全免费且无需登录的可爱 3D 风格头像生成器,基于 OpenAI Responses API 和 gpt-image-1 实现。
佬们只需上传头像点击生成即可获得个性化 3D 头像,还可以通过提示词编辑功能进行更精细的控制。
Anthropic 与 Rick Rubin 合作推出 Claude 生成的艺术代码展
Anthropic 与 Rick Rubin 合作推出了这个独特的艺术代码展示网站[8] - 所有展示的代码均由 Claude 生成。
佬们可以来围观学习,这些作品大多采用 React + canvas 实现,你不仅能查看完整代码,还能直接在线编辑修改!