王梦珂 2024-07-09 14:44 北京
普通人对待 AI 工具的应有态度:用上先,边用边学边想。?如果你关注AI发展,你一定知道可灵——它是世界范围
普通人对待 AI 工具的应有态度:
用上先,边用边学边想。
?
如果你关注AI发展,你一定知道可灵——它是世界范围内你能用到的最好的视频生成模型。
快手刚刚在2024年世界人工智能大会期间举办了大模型论坛,发布了关于可灵的重要信息:
一,可灵最新推出网页端(klingai.kuaishou.com)。
二,进行了一个月内的第三次重大升级,新增了高画质版、首尾帧控制和镜头控制等新功能。
用户现在可以单次生成长达10秒的文生视频,,最长可以续写到3分钟,这是目前业内最长的视频生成时长。
AI迭代的速度越来越快,正在一天天改变着我们的生活,它正在慢慢成为如同基础设施一样的存在。
我请到了AI观察家、AI从业者及AI工具开发者归藏录了一期播客:
我们分别以从业者、开发者和使用者的角度来跟大家分享行业发展以及普通人用AI。
让AI真正成为能为你所用的好用工具,融入你的日常生活。
以下是本次播客对谈的主要内容:
01/现在AI的行业趋势是什么?
02/可灵凭什么能成为最好的视频生成大模型 ?
03/普通人应该如何使用AI?
让我们依次来看以上3个问题。
01/现在AI的行业趋势是什么?
随着技术的进步,AI不再只是科幻小说中的概念,它已经成为我们日常生活的一部分。
现在,行业内一些头部通过竞争降低了使用门槛,在AI模型变得越来越好的同时,价格也变得越来越便宜。
比如ChatGPT开始免费提供GPT-4o,Siri也能接入大语言模型了。
目前AI技术的发展为图像和视频领域带来了革命性的变化,我们可以用AI生成图,再把图变成视频。只需要写一下,你希望画面中的某一个东西怎么样运动就可以了。
这种模式也是通过几年间探索发展出来的新方向:
在2022年之前,AI是基于干模型发展的。干模型之前,它的变化幅度比较小,训练成本虽然比较低,但是它可能没什么创造力。
从22年开始,Diffusion架构出来了,大家开始去制作图像类的内容。在我们解决了图像问题之后,自然而然发展出来视频需求,因为视频就是连起来的图像。那我们能不能用这样的方式生成几个连续的图像,让它去变成视频。
但是基于Diffusion架构的模型有一个问题,它的运动幅度很小,大动以后容易崩,无法完成连续性。
不过在今年2月,Sora出来了,它使用的技术是Diffusion Transformer。Transformer可以理解为图像的基底架构,同时我们增加提示词的部分,它的根本架构也是Transformer架构。
这个模型把两者结合起来,一定程度上解决了之前连续性不足的问题,同时视频生成长度变长,运动幅度也越变越多。
所以整个的行业的研发方向,都变成了DIT架构的视频生成模型。
在我们能够接触到的工具中,可灵就是其中代表之一。
02/可灵凭什么能成为最好的视频生成大模型
想象一下,你只需输入几个关键词,甚至不用超过十个字,可灵就能生成一段生动的视频。
它在图像和视频生成领域被认为是当前几乎最好的模型之一:尤其在连贯性、运动幅度和自发行为方面表现出色。
连贯性、运动幅度和自发行为是对一个视频模型好坏的基本评判标准:
连贯性指画面中的物体在运动过程中,能不能保持整个ID的一致性和三维的一致性,比如在环绕一个物体的时候,其他面能够被补充出来,同时它是连贯的。
在上述前提下,物体能有多高的运动幅度,就是在一段5秒的视频里它能运动多快。
以及,它能不能有一些自发的行为——像在物理规律方面表现出一定的智能,比如扔出一个东西可以呈现重力作用下的抛物线,或者往水杯注水时水位会上升。
验证模型好坏还有一个简单定律:就是够逼真。
该亮的亮,该暗的暗,符合我们的认知。
可灵的大模型就用了很多相对真实的训练。它的美学表现虽然不是最优,但在真实性和美感之间,选择了更真实的效果。
此外,可灵能够根据你的提示词续写视频,一些运用工具比较熟练的用户甚至能用可灵创作一部武侠片。
这也为普通人提供了入门和使用AI的好时机,它将一句话变成了现实:“这是一个想什么是什么的世界。”
有了图像技术后我们还能看见一些温情的创造,通过AI生成老照片的动态版本,让尘封的记忆再次鲜活,这也是科技与人文的结合。
03/普通人应该如何用AI?
AI作为提高效率非常好用的工具,既能帮助完成日常工作中的重复性和耗时任务,也能帮助我们进行脑暴,探索新的可能。
在归藏看来,在我们使用AI时,最基础也最重要的有两点:
第一,尽可能地给它背景信息。
第二,尽可能地让它自己去反思。
这样能确保它每次输出的东西,自己会再想过一遍。
当它再想一遍反思的时候,就会发现一些它自己的问题。
举个例子:
当你要翻译一个文件,做出翻译要求后增加条件:“根据你第一遍输出的内容,反思里面的问题,然后基于基于反思的问题,针对第一遍你输出的内容进行修改,再输出一次结果。”
一次交互,它会按照排版回你三段。
如果我们想在使用AI工具的同时,自己也能得到提升,归藏老师有个小建议很实用:
利用AI迫使自己动脑筋。
你可以让AI扮成一位行业专家向你提问,以此进行深度思考。
同时我们也要注意一点,AI存在“幻觉”问题,也就是说AI生成的内容可能是假的,或者半真半假,需要大家自己进行判断和验证。
随着AI技术的发展,持续学习如何更有效地使用这些工具,保持与时俱进也是一件很重要的事情,比如归藏老师在AI领域就有一本非常详细的行动指南,见文章最后《AIGC 周刊》。
通过这些方法,普通人也可以更好地利用AI技术,提高生活和工作的效率,同时也能够享受AI带来的创新和便利。
要知道,在超级个体时代,每个人都可以是一个公司:
如果说新媒体渠道构成你的市场部,那么AI工具就构成你的技术部。
AI一点儿都不复杂,它是一个可以为你所用的工具,一匹让你策马奔腾的骏马。
别怕复杂,先上马。
【关于归藏,你可以在这些地方找到他】
推特:https://x.com/op7418
微博:https://weibo.com/
公众号:歸藏的AI工具箱
小红书:https://www.xiaohongshu.com/user/profile/5c696b98000000001003043b
AIGC 周刊:https://quail.ink/op7418
Catjourney:https://catjourney.life/
点击阅读原文,收听本期播客↓