2025-02-26 23:47 广东
今天市场消息:阿里光模块招标爆了,半年(2 月到 8 月)接近 500 万,400G ,去年同期 100 万,五倍(此前预期 2-3 倍),主要供应商光迅科技、华工科技、海光芯创(非上市)、海信宽带(非上市)。
截止目前,阿里招标结果尚未公布,但预期本周落地。本质招标采购数量约500万只(此前400万只单模:多模为6:4,后面多模数量上调,单多模比例约5:5),招标执行周期约为半年,要求光模块厂商在9月之前交付。
供应份额正式结果尚未发布,但可重点关注光迅、华工、旭创、新易盛
- 阿里:重点关注#光迅(24年的一供)、旭创、华工、联特(200g)等上市公司,及海信宽带(国内市场份额较大)、索尔思等非上司企业。此前不做国内市场的新易盛本质也导入阿里,预计能拿到可观份额。
- 腾讯:预计近两周发布采购指引,预计25年需求约200万只400G及传统云业务配套的200G,不同于传统封装形态,腾讯以BR4硅光为主。供应商相对集中,包括#海信、光迅、旭创。
- 字节:去年底已针对字节年度标详细梳理,不排除后续有增补性订单。主要供应商包括海信、光迅、旭创、海思、华工等。
阿里另一件值得关注的大事:阿里万相大模型正式开源,多模态平权已来!
事件:昨晚阿里云视频生成大模型万相2.1(Wan)重磅开源,此次开源采用Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源。
1)能力优秀,目前全球第一
2)生成的图和视频,能够理解物理规律
3)首个具备支持汉字文字生成能力,支持中英文文字特效
4)很轻,4090就能本地化部署
1、14B 万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出。在评测集 VBench 中,万相 2.1 以总分 86.22% 的成绩大幅超越 Sora、Luma、Pika 等国内外模型,稳居榜首位置。
2、1.3B 版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需 8.2GB 显存就可以生成高质量视频,适用于二次模型开发和学术研究。
3、技术创新:
- 基于 DiT 架构和 Flow Matching 范式;
- 研发高效因果 3D VAE 和可扩展预训练策略;
- 实现特征缓存机制,支持无限长 1080P 视频编解码;
- 通过空间降采样压缩,减少 29% 内存占用。
【阿里多模态专家解读】
核心要点:
1.端到端能生成长视频产品,架构主流
2.中文生字领域开创先河,视频/图片生成涉及中文尤其是毛笔字有优势,可控性突破,支持中文混合,细节一致性好
3.可控性需参考图片和提示词共同作用,优质提示词和模型可控性可助生成优质连续画面,应用于广告级视频生成等,能精确模拟多种真实物理现象。
4.该产品可避免角色肢体流出画面,实现复杂场景高仿真特效,将广泛应用于电影、广告、娱乐文化、科技、科学实验视频等领域。
中文生成是通过购买有版权字体方授权,获取汉字数据以图片形式喂给模型,预训练拆解像素块学习形成图片配对,避免版权冲突。模型能一笔一划生成文字,因投入大量真人演示写字视频作为训练素材,让模型掌握字体书写方法,具备语义理解和生成能力。后续客户可以根据需求购买字体发挥创作。
在视频生成主体一致性与过渡帧方面,万相工具链通过扩展用户输入为详细样本,利用参考图创作,反复生成画面并控制动作,以及抽取关键帧延展等方式保持连贯性,阿里用大量数据保持物理规律匹配。
阿里3年规划3800亿,今年大概1100-1200亿。具体分成以下几块:1、30%海外,包括泰国等新拓展的市场。这些新市场的基础设施已经完备,因此一旦业务开展,我们便需购置设备并投入使用。2、国内中服务器 65%-70%是 GPU,里面一部分是 H20,今年国产会有比较大的倾斜,包括海光深算、昇腾、寒武纪、平头哥。此外,我们在自建和租赁机房中也投入了一定的比例。这些资金包括了我们刚才提到的海外支出以及国内采购的费用,剩余的15%到20%的资金则用于租赁机房等服务。
专家发言:
通义万相 2.1 有几个显著特点:首先,它是一款能够生成长视频的端到端产品。从架构上来说,它采用了主流的架构。在文生视频和图片视频领域,主要难点包括中文处理。在生成视频时,例如人物走在街道上,比如在台湾街上走,两侧会有许多广告牌,包括人物的衣服和商店招牌上都有中文。但现有的模型,包括 Sora 以及其他视频模型,最困难的是在生成中文时会出现模糊或难以理解的字符。这些字符既不像是简体字,也不像繁体字。AI在处理中文视频时,尤其是在生成汉字时,变形问题尤为突出,尤其是毛笔字更容易发生变形。视频生成中的第二个难点是处理运动速度较快的场景,例如滑板车在马路上疾驰或进行高速跳跃和翻滚等动作。这些快速运动和复杂的动态变化会导致画面变形,对视频生成技术构成挑战。技术难点包括在物理碰撞过程中出现违背物理规律的情况,这是目前 AI技术尚未取得有效突破的领域。
它在中文生字领域开创了先河。特别是在视频生成领域,涉及到中文,尤其是毛笔字这类字体时,它具有显著优势。也就是说它在可控性方面取得了进一步的突破。万相从仅支持中文到支持中文混合,也就是说,无论画面中出现何种字体,我们都能够进行处理。
此外,在细节一致性方面,无论是小猫的毛发、胡须还是指甲的细微颗粒度,甚至是鞋子的鞋带,都能呈现出更为细致的效果。可控性方面,需要参考图片和提示词共同作用以生成视频。提示词会专门引导生成专业级的引导词,提示词。借助优质的提示词和模型的可控性,可以协助生成更优质、连续的画面。这些画面将应用广告级别的视频生成,包括创意样片的生成,均会用到这些技术。包括模拟多种真实的物理现象,如电气水花,滑冰时冰刀与地面摩擦产生的碎屑,以及大幅肢体运动如花样滑冰、跳水时产生的水花等细节,都能得到精确的模拟。这种模拟效果能够避免角色的肢体流出画面,尤其在需要多镜头切换时。对于有碰撞、反弹、挤压等复杂场景的制作,万相能够实现高仿真的特效,为观众带来全新的体验。此版本将广泛应用于电影制作、广告制作、娱乐文化制作、科技以及科学实验视频等领域。
有个测评平台叫 Vbench,他是全球领先的视频模型测评网,16 个维度,目前它排第一。后续阿里会持续发布新的模型,这些发布不仅仅是体验版,而是可以直接赋能行业,包括电影工业和广告等需要深度赋能的行业。同时,它也会发布一些工具,例如像 studio 这样的工具平台。这个工具平台依托于模型,能够将我们生成模型通过后期编辑,使整个画面连贯。通过这种方式,一段视频可以被拼接和编辑成一个连贯的视频,形成一个完整的链路。该产品未来将在我们的平台上以 API 的方式开放给多个行业使用,同时,它还将构建一个供应链,使这些行业能够直接在其工具中使用我们的服务。这包括广告海报插图、产品设计样稿,以及电影和广告样片的制作。在此之前,该技术已与时代华纳等多家知名影视公司的工作室深度合作,赋能视频生产从业者。
问答环节:
Q:中文生成是如何实现的?
A:这类视频生成模型对语料和新数据有一定的要求。在这个赛道上,我们说中国有上百种不同的字体,这些字体有的有版权,有的有 IP。针对字体,我们会需要从这些有版权的字体方去购买授权,让他们提供汉字的各种数据,我们有上万种汉字,每个汉字不同的字体,让字体以图片的形式喂给模型。在模型化过程中,会采用预训练的方式,将图片拆解为更小的像素块,并通过学习形成图片配对。也就是说,当未来用户输入涉及到特定字体时,系统会根据训练过的各种字体进行映射。为了在生产过程中避免版权冲突,对于艺术字中的中文生成,实际上需要购买具有版权的数据。首先,为了避免未来可能出现的与现有字体或版权相关的新字体的冲突,以及由此带来的 IP 纠纷,我们在数据处理阶段就解决法务问题,以避免模型生成过程中产生的法律争议。后续客户也可以根据购买字体版权进行商用创作
Q:根据一些案例,模型甚至能一笔一划地完成整个文字的生成过程。在这一领域是否有一些新的技术实现?
A:我们过去在字体设计上投入了大量的视频资源,这些视频由真人演示,将各种字写一 遍并录好视频,录好以后作为模型训练的素材。未来,当用户需要生成类似风格的字体时,系统能够根据这些视频资料还原出原始字体,并在此基础上加入创意。比如,你可以在空 中写,可以在天空写,可以在云彩上写,或者任何你想象得到的地方进行创作。这背后的 核心是从我们现实中录制的视频中学习到的能力,让模型掌握各种字体的书写方法,从而 具备语义理解和生成能力。
Q:在视频生成中需要考虑主体的一致性和过渡帧等问题,万相在工具链里采用了什么样的方法?
A:首先,关于提示的生成,用户可以输入纯文本的延时 prompt,同时,我们会将这些输入扩展为一个剧本,或者称为故事脚本。因为普通用户在编写提示时,可能只提供一句话描述,例如,“一只猫在海边奔跑”或“一只狗与主人在岸边行走”。这样的简短描述会被 AI扩展成包含数百个字的详细样本。这个脚本会包括背景光线、人物、环境和角度等元素,将其转化为 AI 能够理解的格式,然后 AI 才能进行生成。在这个过程中,扩展脚本是一个比较重要的步骤。第二点,它会利用用户的参考图进行创作。例如,如果用户有一张原始图片,比如一张碟子和一只狗的图片,并要求将狗生成动画,AI 会解析这张图片,并根据用户的提示词,运用决策树加入生成过程。生成过程就像人类绘画一样,先画草图,然后 AI 会反复生成不同的画面,从模糊到清晰。在这个过程中,AI 的 control net 等组件会控制其动作,使其越来越符合用户的信息需求。相当于在作图过程中有一个导师指引它应该往哪个方向创作。这样可以避免 AI 创作的图像与预期相差甚远,更加符合人类的原始意图。现在的 AI 正在朝着更可控的方向发展,使得它创作出的作品与真实的场景更加接近,更加可控。
相当于作图过程中有个导师指导,可以避免 AI 创作的图像与预期相差甚远,更符合人类的意图。现在的 AI 正朝更可控的方向发展。第二是在过渡帧上,比如先生成一个 30 秒的视频,会把 30 秒内的关键帧抽取出来,作为下一个 30 秒的输入去延展,这样能够保证前面的人物、角色、动作等,在后面 30 秒内能够保持连贯性。本身 diffusion transformer 它主要需要解决三个问题:过渡帧、分辨率和连贯性。这个在之前文生图已经解决完了,现在到了视频领域,最重要的是通过脚本扩展的方式扩展输入,进而保持连贯性。另外阿里在大模型里面用了大量数据去保持物理规律的匹配,避免随着时间拉长出现画面扭曲或违反物理规律。
Q:这种方式会不会带来经过多轮生成拼接后,后面的对话输入的 tokens 数量指数级增长?
A:对的。比如 720P=1280*720 ,按照 28*28 是一个像素, 那么对应 720P 一帧是 1200tokens 左右,按 30fps,10s 的视频,tokens36 万。如果是 1080P,一帧是 2650,按 30fps,10s,差不多近 80 万 tokens。
Q:真正具备实用性的 fps 是不是要更大一些?
A:这块是可以设置的,日常能看到的像 45,60 都有,分辨率越大对帧率要求越高,分辨率越小帧率要求就越低。
Q:视频生成这块如何定价?
A:如果按 tokens 计算,1 分钟的 1080P 视频,480 万 tokens。按百万 16 块算,定价大概80 块钱。但实际上通义这边的收费是按生成视频的时间计算,现在定价是 0.7 元/s 计算。
Q:目前我们有哪些 AI 视频的工具链工具,像后期什么的会涉及吗,后续有规划下一个抖音或快手的想法吗?
A:这个产品是阿里云做的,阿里云更多的赋能 B 端客户。目前的规划是先做一个 studio,目前的工具包括视频生成、拼接,后面像配字幕、声音都需要慢慢迭代。产品主要面向设 计公司、广告和影视行业,比如华策影视、中国电影、博纳影业等等。像博纳影业我们给 他开发一个 AI 导演助手的产品,帮助他们进行切片处理,利用该工艺进行剪辑和合成。阿 里云目前没有C 端的规划,C 端由智能信息事业群负责。
Q:B 端客户的使用反馈怎么样?
A:过去拍电影,他们需要申请电影版号,去拍 10 分钟的样片,这个需要真人去拍。现在只需要演员在工作室拍一下,再后期制作,就可以以比较低的成本把样片拍出来,再去申请版号,这样前期的成本就比较低。像封神第二部战火西岐都有 AI 制作的元素在里面。这些素材在产品发布后,首先将深度赋能特效工作室,让他们将这些素材融入到样片乃至正式电影的制作流程中,以协助他们完成制作。
Q:AI 在这些电影替代了哪些部分?
A:一些创意场景,不大好进行拍摄场景。里面会有一些特效,去做 AI 生成。
Q:阿里 3 年 3800 亿,25 年的规划,以及视频生成模型是否会让阿里上调预算。
A:今年大概 1100-1200 亿。具体分成以下几块:1、30%海外,包括泰国等新拓展的市场。这些新市场的基础设施已经完备,因此一旦业务开展,我们便需购置设备并投入使用。2、 国内中服务器 65%-70%是 GPU,里面一部分是 H20,今年国产会有比较大的倾斜,包括海 光深算、昇腾、寒武纪、平头哥。此外,我们在自建和租赁机房中也投入了一定的比例。 这些资金包括了我们刚才提到的海外支出以及国内采购的费用,剩余的 15%到 20%的资金 则用于租赁机房等服务。从增长来说,不会因为万象出来后就会提升,因为这部分已经在 规划的时候预测到了。
Q:最近大厂加采H20 的原因,是否会带来今年 H 卡和国产卡采购结构发生大的改变。
A:主要是政策收紧,未来英伟达不怎么做了。H20 价格是 H100 一半,但硬件是一样,利润更低。现在大家收库存都是有多少收多少的想法,但阿里这边估计也就几万卡。