AI视频进入「真4K时代」？近期AI新鲜事还有这些……

原创洪杉 2025-04-17 08:03 北京

4月AI最前沿（上）

视频创作新巅峰！

谷歌DeepMind推出Veo 2

在AI视频生成的战场上，谷歌终于亮出了底牌：4月16日，Veo 2正式登陆Gemini Advanced。

Veo 2生成：一只戴着超大眼镜的小老鼠在舒适的森林巢穴里，在蘑菇的灯光下看书的动画镜头。

Veo 2可以最高生成8秒720P电影级视频（理论上可生成4K分辨率视频，但受限于当前工具链，实际输出暂为720p，谷歌计划年内开放4K长视频生成），在运镜、文本语义还原、物理模拟、动作一致性等方面非常优秀，同时支持图片转视频功能——这是谷歌迈向多模态生成系统的重要一步。

Veo 2生成：太平洋海岸线宁静的美丽景致。

作为谷歌DeepMind团队的最新力作，Veo 2在原有基础上实现了大升级：

首先是电影级创作工具：Veo 2能自动移除视频中的干扰元素，并利用Outpainting功能扩展画面，生成与原视频无缝衔接的新片段。此外，内置“无人机视角”“延时摄影”“镜头平移”等电影级拍摄参数，用户只需输入文字描述，即可生成符合好莱坞叙事逻辑的分镜。再加上静态图转视频技术，这让AI视频创作更加便捷。

其次是多模态协同与数字水印保护。用户可直接在Veo 2中调用谷歌Imagen 3文本生图模型，或导入本地素材，实现 “文字描述-图像生成-视频剪辑” 全流程闭环。而为防止AI生成内容滥用，Veo 2在输出视频时会嵌入不可见的数字水印，支持第三方验证内容来源。

Veo 2生成：采用35毫米镜头搭配柯达Portra 400胶卷拍摄的养蜂人。

根据谷歌公布的测试数据显示，Veo 2在用户偏好和提示还原方面已经超过了Sora、可灵1.5、MetaMovieGen和Minimax。

川崎公司推出氢动力AI坐骑CORLEO

4月11日，日本川崎重工在2025年大阪世博会上展示了一款名为Corleo的四足机器人概念车型。

这款“赛博坐骑”融合了摩托车工程与机器人技术，大小与大型摩托车相当，四个独立运动的机械腿配备柔性橡胶蹄，搭载一台150cc的氢燃料发动机，能够实时分析机器人及骑手的位置，确保骑手安全稳固地坐在马鞍上。

游戏许愿屋？AI帮你“创造世界”

有多少人都曾被文案、美术、引擎等高要求的技术门槛拦在游戏开发的世界之外？但现在，如果你心中有一个游戏开发的梦，想要自己“创造”一个世界，似乎一切都能变得简单起来。

2025年4月9日，Astrocade团队正式推出「Wish-to-Game」平台。用户只需提供创意，平台即可通过AI技术，将其转化为可玩的游戏，从而降低创作门槛。

你无需编写一行代码，只需要将你的创意用文字表达出来，就能将脑海中的创意火花转化为可玩的游戏——从代码、视效，到动画、音乐以及机制。用户还可以在游戏过程中实时修改内容，使创作过程更加灵活和动态。这种即时反馈和调整的能力，让创作更加高效和富有乐趣。

此外，Astrocade的产品还集成了社交功能，游戏爱好者可以在这里发现有趣的新游戏，还能够参加官方举办的比赛、合作项目等等。

DeepSeek推出SPCT技术，革新AI奖励模型

4月8日，DeepSeek联合清华大学，合作推出全新AI对齐技术SPCT（自我原则点评调优）。突破传统依赖海量训练数据的模式，通过推理阶段动态优化输出质量。

大语言模型依赖奖励模型提供的反馈信号来调整输出内容，即奖励模型决定着AI系统的价值取向与行为逻辑。然而，现有奖励模型长期面临"双重困境"：在可验证领域表现出色，但在开放域对话中却频频"失灵"；传统标量奖励无法捕捉复杂语义，半标量方法又受限于预设规则。

而在SPCT技术下，AI可以通过自我指导机制，优化决策过程，使其更加高效和精准，从而显著提升奖励模型的智能水平和可扩展性。这是AI奖励模型领域的一次重大突破。

AI生图迎最强地震！

Midjourney V7电影级画质干翻GPT-4o

当大家还在乐此不疲地玩着GPT-4o的「吉卜力」风时，Midjourney带着V7版本强势登场了！

从各方网友反馈的内测结果来看，Midjourney V7在图像质量方面有了进一步的提升，对于指令的解析能力大大增强，能够生成超逼真人物，蜡像感暴减，甚至连商业大片也轻松拿下。

此外，Midjourney V7还引入了个性化模型功能，可根据用户的个人审美偏好，提供更加精准和个性化的图像生成；而草稿模式能够大大提升图像渲染速度和成本。

仿真人形机器人开启自主作业新时代

3月25日，由香港大学和上海人工智能实验室研究团队开发的TokenHSI技术，在单一任务控制器的基础上，引入基于Transformer架构的统一策略网络，使得仿真人形机器人在挑战性动态杂乱环境中，也有了完成长期操作任务的能力。

TokenHSI旨在解决当前物理角色控制方法中普遍存在的局限性，即无法有效整合多种复杂的人体场景交互（HSI）技能。现有方法通常专注于单一任务控制器的开发，导致在面对需要多技能协同的任务时表现不佳。而TokenHSI的基于Transformer的策略，可以让物理驱动的角色与环境进行自然交互——它支持可变长度的输入，以快速适应新场景，并通过跨任务的知识共享，大幅提升交互的多样性与灵活性。

全球首篇通过同行评审的AI生成科学论文现世

2024年8月，Transformer 论文作者之一Llion Jones与前谷歌研究者David Ha共同创立的人工智能公司Sakana AI推出了首个全自动科学发现的AI系统：AI Scientist，即「AI 科学家」。到12月份，他们又拿出了另一项震撼性的重磅研究成果：使用基础模型搜索人工生命的系统ASAL。这两项成果都吸引了无数眼球。

2025年3月12日，Sakana AI又宣布：AI Scientist-v2通过了ICLR会议一个研讨会的同行评审过程。这是AI科学家写出的首篇通过同行评审的科研论文！

AI Scientist工作流程

不过，论文虽然通过了ICLR研讨会的评审，但Sakana AI团队在内部评审中发现，三篇论文并未达到ICLR主会场的接受标准。此外，虽然AI Scientist展现出了一定的科研能力，但在自主研究方面仍存在诸多不足。例如，在文献综述环节，它常常将已经成熟的学术概念错误地归类为新颖成果，在实验执行过程中，42个实验因编码错误而失败，部分实验结果也存在缺陷或误导性，生成的论文也存在结构错误、引用过时等问题。