你是一人公司，AI 就是你的技术部

王梦珂 2024-07-09 14:44 北京

普通人对待 AI 工具的应有态度：用上先，边用边学边想。?如果你关注AI发展，你一定知道可灵——它是世界范围

普通人对待 AI 工具的应有态度：

用上先，边用边学边想。

如果你关注AI发展，你一定知道可灵——它是世界范围内你能用到的最好的视频生成模型。

快手刚刚在2024年世界人工智能大会期间举办了大模型论坛，发布了关于可灵的重要信息：

一，可灵最新推出网页端（klingai.kuaishou.com）。

二，进行了一个月内的第三次重大升级，新增了高画质版、首尾帧控制和镜头控制等新功能。

用户现在可以单次生成长达10秒的文生视频，，最长可以续写到3分钟，这是目前业内最长的视频生成时长。

AI迭代的速度越来越快，正在一天天改变着我们的生活，它正在慢慢成为如同基础设施一样的存在。

我请到了AI观察家、AI从业者及AI工具开发者归藏录了一期播客：

我们分别以从业者、开发者和使用者的角度来跟大家分享行业发展以及普通人用AI。

让AI真正成为能为你所用的好用工具，融入你的日常生活。

以下是本次播客对谈的主要内容：

01/现在AI的行业趋势是什么？

02/可灵凭什么能成为最好的视频生成大模型？

03/普通人应该如何使用AI？

让我们依次来看以上3个问题。

01/现在AI的行业趋势是什么？

随着技术的进步，AI不再只是科幻小说中的概念，它已经成为我们日常生活的一部分。

现在，行业内一些头部通过竞争降低了使用门槛，在AI模型变得越来越好的同时，价格也变得越来越便宜。

比如ChatGPT开始免费提供GPT-4o，Siri也能接入大语言模型了。

目前AI技术的发展为图像和视频领域带来了革命性的变化，我们可以用AI生成图，再把图变成视频。只需要写一下，你希望画面中的某一个东西怎么样运动就可以了。

这种模式也是通过几年间探索发展出来的新方向：

在2022年之前，AI是基于干模型发展的。干模型之前，它的变化幅度比较小，训练成本虽然比较低，但是它可能没什么创造力。

从22年开始，Diffusion架构出来了，大家开始去制作图像类的内容。在我们解决了图像问题之后，自然而然发展出来视频需求，因为视频就是连起来的图像。那我们能不能用这样的方式生成几个连续的图像，让它去变成视频。

但是基于Diffusion架构的模型有一个问题，它的运动幅度很小，大动以后容易崩，无法完成连续性。

不过在今年2月，Sora出来了，它使用的技术是Diffusion Transformer。Transformer可以理解为图像的基底架构，同时我们增加提示词的部分，它的根本架构也是Transformer架构。

这个模型把两者结合起来，一定程度上解决了之前连续性不足的问题，同时视频生成长度变长，运动幅度也越变越多。

所以整个的行业的研发方向，都变成了DIT架构的视频生成模型。

在我们能够接触到的工具中，可灵就是其中代表之一。

02/可灵凭什么能成为最好的视频生成大模型

想象一下，你只需输入几个关键词，甚至不用超过十个字，可灵就能生成一段生动的视频。

它在图像和视频生成领域被认为是当前几乎最好的模型之一：尤其在连贯性、运动幅度和自发行为方面表现出色。

连贯性、运动幅度和自发行为是对一个视频模型好坏的基本评判标准：

连贯性指画面中的物体在运动过程中，能不能保持整个ID的一致性和三维的一致性，比如在环绕一个物体的时候，其他面能够被补充出来，同时它是连贯的。

在上述前提下，物体能有多高的运动幅度，就是在一段5秒的视频里它能运动多快。

以及，它能不能有一些自发的行为——像在物理规律方面表现出一定的智能，比如扔出一个东西可以呈现重力作用下的抛物线，或者往水杯注水时水位会上升。

验证模型好坏还有一个简单定律：就是够逼真。

该亮的亮，该暗的暗，符合我们的认知。

可灵的大模型就用了很多相对真实的训练。它的美学表现虽然不是最优，但在真实性和美感之间，选择了更真实的效果。

此外，可灵能够根据你的提示词续写视频，一些运用工具比较熟练的用户甚至能用可灵创作一部武侠片。

这也为普通人提供了入门和使用AI的好时机，它将一句话变成了现实：“这是一个想什么是什么的世界。”

有了图像技术后我们还能看见一些温情的创造，通过AI生成老照片的动态版本，让尘封的记忆再次鲜活，这也是科技与人文的结合。

03/普通人应该如何用AI？

AI作为提高效率非常好用的工具，既能帮助完成日常工作中的重复性和耗时任务，也能帮助我们进行脑暴，探索新的可能。

在归藏看来，在我们使用AI时，最基础也最重要的有两点：

第一，尽可能地给它背景信息。

第二，尽可能地让它自己去反思。

这样能确保它每次输出的东西，自己会再想过一遍。

当它再想一遍反思的时候，就会发现一些它自己的问题。

举个例子：

当你要翻译一个文件，做出翻译要求后增加条件：“根据你第一遍输出的内容，反思里面的问题，然后基于基于反思的问题，针对第一遍你输出的内容进行修改，再输出一次结果。”

一次交互，它会按照排版回你三段。

如果我们想在使用AI工具的同时，自己也能得到提升，归藏老师有个小建议很实用：

利用AI迫使自己动脑筋。

你可以让AI扮成一位行业专家向你提问，以此进行深度思考。

同时我们也要注意一点，AI存在“幻觉”问题，也就是说AI生成的内容可能是假的，或者半真半假，需要大家自己进行判断和验证。

随着AI技术的发展，持续学习如何更有效地使用这些工具，保持与时俱进也是一件很重要的事情，比如归藏老师在AI领域就有一本非常详细的行动指南，见文章最后《AIGC 周刊》。

通过这些方法，普通人也可以更好地利用AI技术，提高生活和工作的效率，同时也能够享受AI带来的创新和便利。

要知道，在超级个体时代，每个人都可以是一个公司：

如果说新媒体渠道构成你的市场部，那么AI工具就构成你的技术部。

AI一点儿都不复杂，它是一个可以为你所用的工具，一匹让你策马奔腾的骏马。

别怕复杂，先上马。

【关于归藏，你可以在这些地方找到他】

推特：https://x.com/op7418

微博：https://weibo.com/

公众号：歸藏的AI工具箱

小红书：https://www.xiaohongshu.com/user/profile/5c696b98000000001003043b

AIGC 周刊：https://quail.ink/op7418

Catjourney：https://catjourney.life/

点击阅读原文，收听本期播客↓

阅读原文

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签