字节小云雀AI：一键生成数字人视频与设计图；NovelAI二次元生成新标杆；快手可灵 KLING 2.1系列发布；AI全能工作站

原创小茸茸 2025-05-30 09:58 重庆

阿里WebDancer浏览器原生智能信息检索Agent；谷歌MedGemma医学多模态开源模型X光CT分析；BlackForestLabs发布FluxKontext媲美ChatGPT图像编辑模型；Chain-of-Zoom 64 倍图像超分

Midjourney V7 发布更新：渲染速度提升 40% + 社区投票功能

Midjourney V7 版本^[1] 刚刚发布更新！渲染速度直接提升约 40%，图像编辑器也变得更加智能。

最有趣的是新增的 Idea 页面^[2]，现在用户可以投票决定 MJ 下一步要支持什么功能。

Midjourney 官方 V7 更新公告: https://x.com/midjourney/status/1928228774451269830Midjourney 社区功能投票页: https://www.midjourney.com/ideas

Perplexity 发布 AI 全能工作站：代码、分析与自动化一网打尽

Perplexity Labs^[3] 现已面向所有 Pro 用户推出，这是一款可以处理复杂任务的工具，能够使用编码、无头浏览器和设计工具直接在平台中进行报告分析、生成演示文稿、输出动态仪表板和可交互迷你web程序。

就算没有 Pro 会员也别着急，可以去围观下社区大佬们分享的案例吧

Perplexity Labs 官网: https://www.perplexity.ai/labs

NovelAI 发布 Diffusion V4.5：二次元生成新标杆

NovelAI Diffusion V4.5^[4] 完整版发布！

在二次元美学上独一档，此次更新大大提高了提示词理解、多角色生成和风格混合。

完整介绍可以看官方博客。

NovelAI官方V4.5更新博客: https://blog.novelai.net/%E5%88%B6%E9%99%90%E3%81%AA%E3%81%8D%E5%89%B5%E4%BD%9C%E3%81%B8-novelai-diffusion-v4-5-full%E7%99%BB%E5%A0%B4-60f2f603a1e8

阿里推出 WebDancer：浏览器原生智能信息检索 Agent

阿里最新发布的 WebDancer^[5] 是一个基于浏览器的自主信息检索 Agent，能够实现网页遍历、精准信息定位和智能问答等复杂推理链任务。

目前项目代码已在 GitHub 开源，没找到在线演示。

WebDancer 项目 GitHub 仓库: https://github.com/Alibaba-NLP/WebAgent

谷歌推出 MedGemma：医学多模态开源模型支持X光CT分析

谷歌发布的 MedGemma^[6] 是一款开源权重多模态模型，在医学文本和图像理解领域展现出领先性能。

该模型能够进行X光和CT图像分析，可作为医生的智能辅助工具完成初步诊断。

佬可以在在线演示平台^[7]体验其功能，但目前仅支持预定义图片分析，暂未开放自定义上传功能。

MedGemma 官方发布页面: https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4MedGemma 在线演示: https://huggingface.co/spaces/google/rad_explain

Black Forest Labs 发布 Flux Kontext：媲美 ChatGPT 的图像编辑模型

Flux Kontext^[8] 是 Black Forest Labs 最新推出的图像编辑模型，支持将图片和文字作为上下文输入，其图像编辑能力可媲美 ChatGPT。

目前该模型正处于内测阶段,可以在官方合作伙伴平台中试用，包括 ComfyUI。

值得一提的是，团队还同步发布了 BFL Playground^[9]，开发者可以在线体验其最先进的 FLUX 模型。

Flux Kontext 官方公告: https://bfl.ai/announcements/flux-1-kontextBFL 在线体验平台: https://playground.bfl.ai/image/generate

Chain-of-Zoom 实现 64 倍显微镜级图像超分

Chain-of-Zoom (CoZ)^[10] 通过将超分辨率任务分解为多个中间步骤，并结合多尺度感知提示，相比传统 SISR 模型在极端放大倍数下实现了突破性性能提升。

官网演示的 64 倍放大效果图清晰度惊人，效果堪比显微镜观察，不过我没找到在线演示。

Chain-of-Zoom 项目主页: https://bryanswkim.github.io/chain-of-zoom/

字节跳动推出小云雀 AI：一键生成数字人视频与设计图

小云雀^[11]是剪映出品的 AI 视频和图片创作助手，支持AI辅助视频创作、数字人播报、智能换背景和设计图生成等功能，用户输入简单指令即可生成专业内容。

目前仅支持安卓版本，iOS用户可能要再等等啦～

小云雀AI创作助手安卓版: https://sj.qq.com/appdetail/com.commercepro.and

快手可灵 KLING 2.1 系列发布

快手旗下 AI 视频生成平台可灵(KLING)正式发布 2.1 系列模型。

KLING 2.1 提供标准版(720p)和专业版(1080p)双模式

KLING 2.1 Master 采用默认 1080p 高清输出，在提示词遵循能力上有显著提升。

完整更新日志^[12]详见官方推文

可灵 2.1 更新公告: https://x.com/Kling_ai/status/1927972934112662004

❝
如果你喜欢《一觉醒来 AI 界发生了什么》系列的话，请关注、点赞、在看、收藏、分享五连警告，这对我真的很重要！

阅读原文

跳转微信打开

Midjourney V7 发布更新：渲染速度提升 40% + 社区投票功能

Perplexity 发布 AI 全能工作站：代码、分析与自动化一网打尽

NovelAI 发布 Diffusion V4.5：二次元生成新标杆

阿里推出 WebDancer：浏览器原生智能信息检索 Agent

谷歌推出 MedGemma：医学多模态开源模型支持X光CT分析

Black Forest Labs 发布 Flux Kontext：媲美 ChatGPT 的图像编辑模型

Chain-of-Zoom 实现 64 倍显微镜级图像超分

字节跳动推出小云雀 AI：一键生成数字人视频与设计图

快手可灵 KLING 2.1 系列发布

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签