原创 一支烟一朵花 2025-04-13 15:34 上海
现有 AI 视频产品的通病Runway、Pika Labs 和 OpenAI 等平台专注于视觉保真度,而 Higgsfiled AI 另辟蹊径,专注在电影特效领域,并且可以保持极高的完成度,效果让人惊叹。
现有 AI 视频产品的通病
Runway、Pika Labs 和 OpenAI 等平台专注于视觉保真度,而 Higgsfield 则优先考虑电影的“语法”,即塑造故事的运动、视角和空间构成。
如今大多数 AI 生成的视频模型看起来不错,但是它们经不住考验:
灯光不对,运动不连贯,摄像机行为随意,世界模型也随着时间推移而崩塌。
为什么?
因为它们缺乏意图和控制。
他们只是逐帧的噪声雕刻家——而不是导演。
没有故事,没有连贯性,也不理解电影语言。
Higgsfield 专为专业级摄像机控制、世界建模和电影化意图而打造——专注在真实感和精度上。
这也是为什么Higgsfield 能在红海赛道AI 视频领域可以快速出圈儿,定位精准,突出长板,脱颖而出。
这似乎也给 AI 领域的创业者一个很好的启示:
基于现有市场 AI 产品的普遍短板去深耕,突出差异性,短时间有很大机会得到关注,曝光度,融资,用户会瞬间涌入。
Higgsfield AI最近开始爆火
Higgsfield 由 AI 视频领域的先驱 Mashrabov 创立,最近获得了 1500 万美元的种子轮融资,进军一个风险资本涌入 AI 视频领域的市场。
Luma 筹集了 4500 万美元,而 Runway 和 Pika Labs 等公司的估值已超过 5 亿美元。
然而,尽管市场热情高涨,Mashrabov 对实际使用这项技术的群体却有着清醒的认识:
“我认为目前 AI 视频的大部分采用者都来自专业人士,百分百如此。”
这是一家专注于将电影语言融入 AI 视频的生成式视频公司,它并非通过增强视觉保真度来实现,而是通过赋予创作者直接控制摄像机如何在场景中移动的能力。
Higgsfield 的核心产品是一个控制引擎,它允许用户仅使用一张图像和一个文本提示就能创建复杂的摄像机运动,
例如推拉镜头、碰撞式特写、俯瞰式扫描和机位跟随镜头——这些类型的镜头通常需要专业的设备和摄制组才能完成。
下面是几个官方精选的例子,效果还是蛮震撼的。
我简单试了一下,用沈腾的电影海报放上去,选择了一个 running 的特效,
效果还是很不错的,哈哈哈
原图:
使用很简单:
上传图片,写提示词,选择特效,这是 Higgsfield跟其他 AI 视频产品最大的不同,有非常非常多的特效可以选:
然后坐等就行了。
最终效果:
沈腾叔叔像个动作演员一样潇洒的跑起来了,漂移的头发随风而动,矫健的身姿生气勃勃,腾哥瞬间化身action star驰骋影坛。
而且一次完成,没有失败。太能打了!
它还支持 Mix 模式,同时使用两种特效。
于是,给曾经的女神宋慧乔增加 zoom in 和kiss的特效😄
这突如其来的kiss,让人虎躯一震,精神抖擞:
为了同时照顾女同学的感受,我打算再来一个金城武的特效,突然“咚”的给我了下面这个氪金的弹框。
好了,免费额度也给大家试出来了:2 个5秒视频,且用且珍惜吧。
于是忍痛怒充了一个 9 刀会员,每月15 个视频,去水印,目前单个视频最长 5 秒钟。
多年没有追星的我,没想到有一天为了金城武花钱了。
效果很赞,让我想到了金城武在《重庆森林》买凤梨罐头的经典桥段。
人物一致性很不错,期待一下官方后续推出10 秒以上时长时能否保持同样的水准。
Higgsfield背后的特有模型: DoP I2V-01-preview
DoP I2V-01-preview 是Higgsfield 全新的生成式视频模型。
具体来讲,他们采用了不同的方法——
与仅仅对静态帧进行去噪的传统系统不同,该模型经过训练可以理解和引导运动、光线、镜头和空间构成——这些都是电影摄影的要素。
他们并没有教它各种视频生成逻辑,而是教它摄像机移动、灯光、镜头和场景结构。
Higgsfield DoP I2V-01-preview 通过一种新颖的架构,将扩散模型与强化学习相结合,为生成式视频带来了电影级的结构和控制力。
官方介绍还提到,其训练方法受到了 DeepSeek 在语言模型推理训练方面工作的启发,但 Higgsfield AI 创新性地将这种方法应用于视频生成,专注于赋予模型以电影化的视觉语言。
在扩散之后应用强化学习,灵感来自于 DeepSeek 训练LLMs进行推理的方式,是一款图像转视频 (I2V) 架构,它融合了扩散模型和强化学习。
该模型并非仅仅对帧进行去噪,而是经过训练以理解和引导运动、光照、镜头和空间构成——捕捉电影摄影的语法。
受强化学习如何用于赋予大型语言模型推理能力的启发,在扩散之后应用了强化学习,以在生成的序列中灌输意图和连贯性。
其结果是一个能够生成富有表现力、可控且高保真视频的系统——由一个为专业创意工作流程量身打造的强大基础设施堆栈提供支持。
通过在扩散之后引入强化学习,该模型学习将连贯性、意图性和富有表现力的运动注入场景中。
真的要再一次给DeepSeek再次鼓掌。