原创 小茸茸 2025-05-30 09:58 重庆
阿里WebDancer浏览器原生智能信息检索Agent;谷歌MedGemma医学多模态开源模型X光CT分析;BlackForestLabs发布FluxKontext媲美ChatGPT图像编辑模型;Chain-of-Zoom 64 倍图像超分
Midjourney V7 发布更新:渲染速度提升 40% + 社区投票功能
Midjourney V7 版本[1] 刚刚发布更新!渲染速度直接提升约 40%,图像编辑器也变得更加智能。
最有趣的是新增的 Idea 页面[2],现在用户可以投票决定 MJ 下一步要支持什么功能。
Midjourney 官方 V7 更新公告: https://x.com/midjourney/status/1928228774451269830Midjourney 社区功能投票页: https://www.midjourney.com/ideas
Perplexity 发布 AI 全能工作站:代码、分析与自动化一网打尽
Perplexity Labs[3] 现已面向所有 Pro 用户推出,这是一款可以处理复杂任务的工具,能够使用编码、无头浏览器和设计工具直接在平台中进行报告分析、生成演示文稿、输出动态仪表板和可交互迷你web程序。
就算没有 Pro 会员也别着急,可以去围观下社区大佬们分享的案例吧
Perplexity Labs 官网: https://www.perplexity.ai/labs
NovelAI 发布 Diffusion V4.5:二次元生成新标杆
NovelAI Diffusion V4.5[4] 完整版发布!
在二次元美学上独一档,此次更新大大提高了提示词理解、多角色生成和风格混合。
完整介绍可以看官方博客。
NovelAI官方V4.5更新博客: https://blog.novelai.net/%E5%88%B6%E9%99%90%E3%81%AA%E3%81%8D%E5%89%B5%E4%BD%9C%E3%81%B8-novelai-diffusion-v4-5-full%E7%99%BB%E5%A0%B4-60f2f603a1e8
阿里推出 WebDancer:浏览器原生智能信息检索 Agent
阿里最新发布的 WebDancer[5] 是一个基于浏览器的自主信息检索 Agent,能够实现网页遍历、精准信息定位和智能问答等复杂推理链任务。
目前项目代码已在 GitHub 开源,没找到在线演示。
WebDancer 项目 GitHub 仓库: https://github.com/Alibaba-NLP/WebAgent
谷歌推出 MedGemma:医学多模态开源模型支持X光CT分析
谷歌发布的 MedGemma[6] 是一款开源权重多模态模型,在医学文本和图像理解领域展现出领先性能。
该模型能够进行X光和CT图像分析,可作为医生的智能辅助工具完成初步诊断。
佬可以在在线演示平台[7]体验其功能,但目前仅支持预定义图片分析,暂未开放自定义上传功能。
MedGemma 官方发布页面: https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4MedGemma 在线演示: https://huggingface.co/spaces/google/rad_explain
Black Forest Labs 发布 Flux Kontext:媲美 ChatGPT 的图像编辑模型
Flux Kontext[8] 是 Black Forest Labs 最新推出的图像编辑模型,支持将图片和文字作为上下文输入,其图像编辑能力可媲美 ChatGPT。
目前该模型正处于内测阶段,可以在官方合作伙伴平台中试用,包括 ComfyUI。
值得一提的是,团队还同步发布了 BFL Playground[9],开发者可以在线体验其最先进的 FLUX 模型。
Flux Kontext 官方公告: https://bfl.ai/announcements/flux-1-kontextBFL 在线体验平台: https://playground.bfl.ai/image/generate
Chain-of-Zoom 实现 64 倍显微镜级图像超分
Chain-of-Zoom (CoZ)[10] 通过将超分辨率任务分解为多个中间步骤,并结合多尺度感知提示,相比传统 SISR 模型在极端放大倍数下实现了突破性性能提升。
官网演示的 64 倍放大效果图清晰度惊人,效果堪比显微镜观察,不过我没找到在线演示。
Chain-of-Zoom 项目主页: https://bryanswkim.github.io/chain-of-zoom/
字节跳动推出小云雀 AI:一键生成数字人视频与设计图
小云雀[11]是剪映出品的 AI 视频和图片创作助手,支持AI辅助视频创作、数字人播报、智能换背景和设计图生成等功能,用户输入简单指令即可生成专业内容。
目前仅支持安卓版本,iOS用户可能要再等等啦~
小云雀AI创作助手安卓版: https://sj.qq.com/appdetail/com.commercepro.and
快手可灵 KLING 2.1 系列发布
快手旗下 AI 视频生成平台可灵(KLING)正式发布 2.1 系列模型。
KLING 2.1 提供标准版(720p)和专业版(1080p)双模式
KLING 2.1 Master 采用默认 1080p 高清输出,在提示词遵循能力上有显著提升。
完整更新日志[12]详见官方推文
可灵 2.1 更新公告: https://x.com/Kling_ai/status/1927972934112662004
❝如果你喜欢《一觉醒来 AI 界发生了什么》系列的话,请 关注、点赞、在看、收藏、分享 五连警告,这对我真的很重要!