阿里巴巴公布图生视频专利，可实现智能化端到端图生视频

界面快报 02月07日

阿里巴巴公开了一项名为“一种图生视频方法和装置”的专利。该专利通过两次模型生成视频，实现了智能化的端到端图生视频转换。无需预设运动参数，即可在保持目标对象不扩散的同时，实现运动轨迹的多样性。该方法首先将包含目标对象的源图像输入第一视频生成模型，得到素材视频，并确定帧间变换矩阵序列。然后，从源图像中提取目标对象的对象掩码图像，并将帧间变换矩阵序列应用于对象掩码图像和源图像，生成掩码图像序列和目标对象图像序列。最后，将这些数据输入支持局部重绘的第二视频生成模型，生成最终的目标视频。

💡**端到端图生视频**: 阿里巴巴的专利技术实现了智能化的端到端图生视频转换，简化了视频生成流程。

🎭**无需预设运动参数**: 该方法无需人工设定运动参数，即可实现目标对象运动轨迹的多样性，提高了视频生成的灵活性和自动化程度。

🖼️**两次模型生成视频**: 通过两次视频生成模型，第一次生成素材视频并确定帧间变换矩阵序列，第二次利用支持局部重绘的模型生成目标视频，确保目标对象不扩散的同时，实现运动轨迹的多样性。

🛡️**对象掩码图像应用**: 通过将帧间变换矩阵序列应用于对象掩码图像，生成掩码图像序列，为后续视频生成提供了精确的局部重绘信息，保证了目标对象在视频中的准确呈现。

天眼查知识产权信息显示，2月7日，阿里巴巴（中国）有限公司申请的“一种图生视频方法和装置”专利公布。摘要显示，本发明实施例将包含目标对象的源图像输入第一视频生成模型得到素材视频，根据素材视频确定帧间变换矩阵序列，然后从源图像中得到目标对象对应的对象掩码图像，将帧间变换矩阵序列应用于对象掩码图像可得到多张掩码图像从而组成掩码图像序列，将帧间变换矩阵序列应用于源图像可得到多张目标对象图像从而组成目标对象图像序列，根据源图像、掩码图像序列和目标对象图像序列确定目标输入数据，将目标输入数据输入支持局部重绘的第二视频生成模型，得到对应的目标视频。通过两次模型生成视频，实现了智能化端到端的图生视频，无需引入预设运动参数即可在保持目标对象不扩散的同时，实现运动轨迹多样性。

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签