AI大模型工场 01月11日
海螺 AI 甩出“主体参考”,视频模型迈上新台阶
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

海螺AI推出“主体参考”功能,利用S2V-01模型,在视频生成领域实现技术突破。该功能仅需一张图片即可提取主体视觉信息,结合文本提示,灵活生成高质量视频,且人物面部保持高度一致性,解决了传统视频生成中人物面部失真问题。相较于其他AI人像模型,海螺AI的“主体参考”功能成本更低,效率更高,生成的视频效果也更出色,在商业广告和短剧等领域具有广阔的应用前景。海螺AI凭借此项技术,在视频生成产品榜单中超越Sora,展现出强大的市场竞争力。

🖼️ 海螺AI的“主体参考”功能,仅需一张图片即可精准提取人物视觉信息,并根据文本提示生成多样化视频内容,兼顾了视觉信息的精准性和文本信息的组合性。

🚀 对比其他AI人像模型,海螺AI的“主体参考”功能大幅降低了使用门槛和成本,仅需一张图片和一次正常运算,即可生成高质量视频,而无需耗费大量时间和资源进行模型训练。

🌟 海螺AI生成的视频,在保持人物面部多角度真实度和稳定性的同时,还能精准还原面部细节,即使在光线变化和运动状态下,人物的五官、轮廓和表情也始终保持高度一致,有效避免了“恐怖谷”效应。

🎬 “主体参考”功能在商业应用中潜力巨大,可应用于广告制作,短剧创作等领域,在保证人物一致性的前提下,大幅提高创作效率,降低制作成本,为内容创作者提供更便捷的创作工具。

原创 孙浩 2025-01-10 16:15 北京

“主体参考”成行业发展“金钥匙”



作者孙浩

编辑|星奈

媒体|AI大模型工场



刚刚迈入2025年,海螺AI就甩出了一张“王炸”。


就在今天,海螺AI正式推出“主体参考”功能,并以S2V-01新模型能力提供底层技术支持。


不可否认的是,目前视频生成大模型已经屡见不鲜,Sora、可灵AI、即梦AI均提供文生视频或图生视频功能。但目前大部分视频模型在生成包含人物的视频时,都难以保证人物面部多角度的真实度和稳定性。


2025年视频模型或是AI领域的主阵地,在此背景下,海螺AI抛出的“主体参考”功能,并顺势,带给AI视频赛道一些新的解题思路。



更低成本,更好表现,

「主体参考」保持人物一致性



海螺AI的“主体参考”功能可以将图片的视觉信息拆解、剥离,读取“主体”的视觉信息,然后根据文本prompt ,灵活设计人物的动作、行为、所处环境等,兼顾“视觉信息的精准性”和“文本信息的组合性”两项优势。


此前,可灵AI其实也上线了类似的AI人像模型,不过该模型的底层逻辑与海螺AI的“主体参考”功能截然不同。可灵AI的AI人像模型使用的是LoRA微调方案,需要上传10-30段多样、高质量的视频,等待几十分钟才能训练完成,单次训练成本高达100元。大量输入,对于普通用户而言,使用门槛也较高。


对比而言,海螺AI的“主体参考”功能仅需输入1张图片,叠加一次正常的运算成本,即可生成高质量视频内容,使用门槛以及成本都显著低于可灵AI。


原始图片


海螺AI生成视频


结合具体的案例来看,尽管成本更低,但海螺AI的“主体参考”功能生成的视频效果依然很惊艳。我们给海螺AI输入了一张人物正面照,然后让它生成一个类似《指环王》电影风格的视频。


仔细观察视频可以发现,海螺AI不光可以准确理解Prompt提示词的要求,生成了电影级视效的视频,并且运动的人物面部也没有畸变,同时也可以保证细节精准还原,复杂光照环境下也有自然和谐的面光。


原始图片


海螺AI生成视频


让海螺AI结合人物正面照生成一个人脸抬起的同时,镜头快速拉近的视频时,其也能凭借先进的算法和卓越的图像处理能力,将人脸的每一处细节都处理得恰到好处。无论是精致的五官轮廓,亦或是下巴上的胡须,在运动过程中的过渡都十分流畅。


再来看看这个案例,海螺AI生成女性面部特写视频时,强大的数据处理和图像解析能力得以充分彰显。海螺AI能够以超乎想象的精准度,全方位地捕捉人物的面部特征。从每一根发丝的走向到面部细微的神态变化,无一遗漏。


原始图片


就拿视频中女性面部的三颗痣来说,这看似微小的细节,却成为了检验AI能力的关键之处。海螺AI在生成视频的过程中,对这三颗痣的位置、大小、颜色以及与周围皮肤的融合度等方面,都做到了精准还原。对比而言,目前市场上的其他AI产品,在面对如此精细的面部特征还原任务时,往往力不从心,难以达到海螺AI优异的表现。


海螺AI生成视频


再比如,我们用熟悉的表情包“what”哥,生成一段在餐厅上菜的视频。


原始图片


海螺AI生成视频


可以看到,what”哥从走向餐桌到平稳放下菜肴的过程中,主角面部始终保持高度一致性。尤其他还面带微笑,与端菜场景高度匹配,整个画面充满生活气息和真实感。


另外,我们在体验过程中还发现,海螺AI可以同时生成5个视频,并且生成速度在1-3分钟内,这效率可以说是非常高了。


其他AI视频产品生成的视频


作为对比,我们在其他AI视频产品中使用同样的照片和指令生成视频,结果其仅生成了一个镜头逐渐拉远的镜头,并不符合要求。随后,我们把指令换成了“这个人在马路上跳舞”,结果虽然生成了符合要求的内容,但出现了严重的人脸畸变和手掌消失等问题。


综合来看,海螺AI的“主体参考”功能在在用户输入和计算成本更可控的情况下,实现了更出色的生成效果,相较其他需要耗费巨额资金、海量素材和时间的AI人像模型方案,拥有更强的比较优势。



解决「主体一致」

释放更大商业潜力



视频生成大模型技术问世之初,就有诸多行业专家认为,其蕴含着巨大的商业价值,有潜力落地在商业广告、短剧等制作中。


比如,电影导演贾斯汀·波里尔就曾表示,随着技术逐渐成熟,品牌商接下来将可以利用视频生成大模型生成备用画面素材,大幅降低采购版权库片源的成本。无独有偶,博纳影业集团影视制作副总经理曲吉小江也对外表示,“AI与短剧的融合将激活潜在创作者,构建人才聚合平台,并丰富短剧类型。”


不过不能忽视的是,一项新的技术迈向商用,不光需要具备想象力,也需要在效果、成本、效率等维度实现完美的平衡。目前市面上的大部分视频生成大模型技术,大多存在内容质量不佳、成本高企等问题,很难大规模商用。


测试下来,初代的模型可能偶尔不如T2V或I2V那样精确地遵循提示,并且会出现一些环境变形。但凭借高水准、高自由度的“主体一致”,可以看出MiniMax用技术创新解决应用痛点的思考与能力。海螺AI表示:未来会持续升级功能,逐步解决多主体参考、物体参考以及复杂的多层次场景。


图源:头豹研究院


头豹研究院披露的数据显示,2021年,中国AI视频生成行业的市场规模为800万元,预计到2026年将增长至92.79亿元,复合年增长率高达310.09%。


由于可以避免“人脸畸变”,海螺AI的“主体参考”功能在广告市场拥有巨大的商业前景。比如,运动品牌商可以通过海螺AI的“主体参考”功能生成运动的人物,不用担心出现“恐怖谷”效应。



海螺AI生成视频


比如,在海边跑步视频里,男性奔跑时,海风呼啸、身体颠簸,但面部细节,如五官的形状、位置分毫未变,连胡须的长度、卷曲度都清晰且稳定。当场景切换到佩戴墨镜的视频,即使光线、面部动作改变,但面部细节依旧完美衔接,胡须和面部轮廓始终保持与跑步视频高度一致。这种一致性不仅体现了海螺AI强大的技术实力,也让两个视频中的人物形象更加真实、连贯,极大提升了视频的整体质量与视觉体验。


在短剧市场,由于可以保持“主体一致性”,海螺AI的“主体参考”功能生成多个视频内容时,也能保证人物的一致性,可以极大地提高内容创作者的工作效率。


海螺AI生成视频


在这个海螺AI生成的短剧中,“主体参考” 功能让视觉呈现达到了电影级水准。镜头切换时,每个角色的面部细节都能做到无缝衔接。剧中人物 移动、交谈、情绪起伏时,五官轮廓、皮肤纹理、表情变化都始终保持高度一致。


并且,针对不同视频风格的需求,海螺AI提供多种样式选择,包括动画、短片、宣传片等,允许用户在创作中自由切换风格。此外,海螺AI还支持多种语言的文本输入,方便国际用户使用。


图源:AI产品榜·12月视频生成榜


2024年10月-12月,AI产品榜中,海螺AI月访问量分别为1173万、1762万、2732万,分别同比增长2772.92%、39.33%、67.1%。经过数月的积累,2024年末,海螺AI凭借2732万的网站访问量超越Sora,位列视频生成产品榜单TOP 1。


放眼国内视频大模型市场,在众多参与者中,真正能够在技术创新、功能实用以及商业潜力等方面展现出强大竞争力的,只有寥寥数家。目前,海螺AI 已凭借出色效果和数据表现暂时领先。快手的可灵 AI 以“规模效应”占据重要位置,字节即梦AI虽尚未完全绽放光芒,但凭借字节跳动的强大实力,未来也值得期待。


因此,可以预测,未来国内视频大模型的竞争格局,或将由快手的可灵 AI、字节的即梦AI,MiniMax的海螺AI三家主导。


AIGC大模型工场已经组织了非常精准的「AI大模型垂直社群」,覆盖超1000位AIGC圈,百度大模型业务负责人,京东大模型业务负责人,腾讯大模型业务人,阿里云大模型技术负责人,科大讯飞大模型公关,商汤大模型业务,阅文大模型公关,360大模型公关负责人都在群里啦,欢迎大模型业务负责人加入。请加微信fqq2000nian,注明真实身份。




数据支持天眼查,大模型独家合作账号


— END —


监制 / 刘老师

编辑 / AIGCCCCC

视觉 / 大模型

微博 / @AI大模型工场

TG/AI  Marketing Field


  


大模型应用创业者,你怎么看


■ 百度文心一言,阿里通义千问   ▍通用大模型案例

 ■ 科大讯飞星火 京东  ▍产业大模型案例

■ 商汤日日新、腾讯,昆仑万维   ▍ 金融大模型案例

■ 盘古大模型,中国电信,医联 ▍医疗大模型案例

■阅文大模型,腾讯音乐大模型 ▍ 文娱大模型案例

■知乎,360大模型,火山引擎 ▍ 教育大模型案例

■  网易,金山办公大模型   ▍    更多行业大模型案例



上次介绍比Sora快!爱诗科技10秒内跑进决赛圈





本文由大模型领域垂直媒体「AI大模型工场」

原创出品,未经许可,请勿转载。 

/

欢迎提供新的大模型商业化落地思路

阅读原文

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

海螺AI 主体参考 视频生成 AI模型 商业应用
相关文章