视频制作新时代来了！Gemini 2 一句话生成所有分镜图片和文案

歸藏的AI工具箱 03月13日

视频制作新时代来了！Gemini 2 一句话生成所有分镜图片和文案

谷歌发布了支持图片生成和编辑的多模态Gemini 2.0模型，它原生支持图片生成，能够通过对话修改图片、混合图片，甚至从草稿生成完整产品渲染图。其强大之处在于能保证多张跨场景图片的人物特征和场景一致性，解决了视频和连续内容创作的难题。用户只需简单打字，即可一次性生成完整故事所需的所有图片分镜，保证风格、角色和环境的统一，大大提高了视频创作效率。结合剪映等工具，三分钟即可完成睡前故事视频，还能将图片导入可灵和海螺生成视频，实现一句话生成视频。

🖼️ Gemini 2.0模型原生支持图片生成，可以通过对话直接修改上传的图片，混合两张图片，甚至从草稿生成完整产品的渲染图，极大地简化了图像编辑流程。

🎭 在生成多张跨场景图片时，Gemini 2.0能保证人物特征和场景的一致性，解决了视频和连续内容创作中长期存在的痛点，使得连续性创作更加流畅。

🚀 用户可以利用Gemini 2.0一次性生成一个完整故事所需的所有图片分镜，保证所有图片在风格、角色和环境上的一致性，极大地提升了视频创作的效率，无需反复调整。

💰 谷歌的Gemini 2.0功能目前是免费的，用户可以几乎无限白嫖，通过AI Studio切换为 Gemini 2.0 Flash Experimental即可使用自然语言与模型沟通，生成高质量的图片。

原创歸藏的 AI 工具箱 2025-03-13 17:24 北京

我就只说了一句话，他就帮我生成了一个睡前故事需要的所有图片和口播稿

昨晚谷歌终于圆上了他们年底画的饼。

发布了支持图片生成和编辑的多模态 Gemini 2.0 模型。

为什么这是一个值得关注的事情呢？

因为原生支持图片生成的语言模型可以实现以往需要很多工具才能完成的功能。

比如你可以直接通过对话修改你上传的图片。

可以通过对话混合两张图片，比如将图 1 的产品放到图 2 的环境里面

甚至于说让他从草稿生成完整产品的渲染图

其中他最强的一个能力是在生成多张跨场景图片的时候可以保证人物特征的一致性，甚至能保证场景一致性。

这是目前我们做视频和连续内容最头疼的部分。现在你只需要动动手指打字就行。

最离谱的是什么呢，你完全可以让他一次生成一个完整故事所需要的所有图片分镜。

由于是一次生成的，所有的图片都能保证在风格、角色、环境上的一致性，直接解决了现在视频创作最恶心的问题。

而且效率非常高不需要反复调整，一次能出十几张。

我就只说了一句话，他就帮我生成了一个睡前故事需要的所有图片和口播稿，我把他们扔进剪映里面 3 分钟搞定了这个睡前故事视频。

以前哪敢想啊家人们。

另外我们完全可以将这些图片扔到可灵和海螺里直接生成视频，表现力会大幅上升，比如 Padphone 老师做的这个皮卡丘就是这样搞得。

稍微产品化一下，我们就能实现一句话生成视频了，没想到这一天来的这么快。

最后谷歌这个功能依旧是免费的，你几乎可以无限白嫖。

使用方式：

打开 AI Studio

右侧将模型切换为 Gemini 2.0 Flash Experimental

直接自然语言跟模型沟通就行

赶紧去试试吧，朋友们，单纯用来生成图片的话这个模型的质量也非常不错。

别忘了 Gemini 2 还是目前视频多模态理解最强的模型，视频生成和编排的新时代就要来了，就看哪些团队能抓住机会了。

如果觉得对你有帮助的话请不要吝啬你手中的赞?、喜欢?和分享按钮✈️，?

跳转微信打开

Fish AI Reader

AI辅助创作，多种专业模板，深度分析，高质量内容生成。从观点提取到深度思考，FishAI为您提供全方位的创作支持。新版本引入自定义参数，让您的创作更加个性化和精准。

FishAI

鱼阅，AI 时代的下一个智能信息助手，助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Gemini 2.0 多模态模型 AI图片生成视频创作 AI Studio

相关文章

AI Trends 2024: Computer Vision with Naila Murray - #665

Unifying Vision and Language Models with Mohit Bansal - #636

Runway Gen-2: Generative AI for Video Creation with Anastasis Germanidis - #622

GPT-4o delivers human-like AI interaction with text, audio, and vision integration

华泰证券：GPT-4o响应时延大幅缩短，有望加速AI硬件落地

智源百模大考阅卷出分

This AI Paper from Stanford University Evaluates the Performance of Multimodal Foundation Models Scaling from Few-Shot to Many-Shot-In-Context Learning ICL

微軟公布具視覺能力的Phi-3-vision多模態模型，可執行在行動裝置上

Multimodal Model Chameleon by Meta

光线传媒：与七维科技达成合作，委托其定制开发AI Studio