歸藏的AI工具箱 2024年07月27日
你是一人公司,AI 就是你的技术部
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文介绍了AI工具,尤其是视频生成模型的发展趋势和普通人如何使用AI工具。文章指出,AI技术正在快速发展,并逐渐成为日常生活的一部分。可灵作为一款优秀的视频生成模型,能够根据关键词生成生动的视频,为普通人提供了使用AI的便捷途径。作者建议,在使用AI时,应尽可能提供背景信息,并让AI进行反思,以确保生成内容的准确性和可靠性。此外,作者还分享了一些利用AI进行思考和学习的方法,以及如何避免AI“幻觉”问题。

🚀 **AI行业发展趋势:** 随着技术进步,AI已经成为日常生活的一部分。头部企业通过竞争降低了AI模型的使用门槛,并不断提升模型性能,降低价格。例如,ChatGPT开始免费提供GPT-4o,Siri也接入了大语言模型。AI技术在图像和视频领域带来了革命性变化,我们可以用AI生成图,再将图变成视频。目前,视频生成模型的研发方向主要集中在Diffusion Transformer架构,例如可灵就是其中代表之一。

🌟 **可灵的优势:** 可灵是一款几乎最好的视频生成模型之一,在连贯性、运动幅度和自发行为方面表现出色。它能够根据关键词生成生动的视频,甚至可以根据提示词续写视频。可灵模型使用了大量真实的训练数据,使得生成的视频更加真实。此外,它还能根据用户的提示词生成个性化的内容,例如创作一部武侠片,为普通人提供了入门和使用AI的便捷途径。

💡 **普通人如何使用AI:** 在使用AI时,最重要的是提供尽可能多的背景信息,并让AI进行反思,以确保生成内容的准确性和可靠性。此外,还可以利用AI进行思考和学习,例如让AI扮演行业专家向你提问,以此进行深度思考。需要注意的是,AI存在“幻觉”问题,需要用户自己进行判断和验证。

王梦珂 2024-07-09 14:44 北京

普通人对待 AI 工具的应有态度:用上先,边用边学边想。?如果你关注AI发展,你一定知道可灵——它是世界范围

普通人对待 AI 工具的应有态度:

用上先,边用边学边想。

?

如果你关注AI发展,你一定知道可灵——它是世界范围内你能用到的最好的视频生成模型。

快手刚刚在2024年世界人工智能大会期间举办了大模型论坛,发布了关于可灵的重要信息:

一,可灵最新推出网页端(klingai.kuaishou.com)。

二,进行了一个月内的第三次重大升级,新增了高画质版、首尾帧控制和镜头控制等新功能。

用户现在可以单次生成长达10秒的文生视频,,最长可以续写到3分钟,这是目前业内最长的视频生成时长。

AI迭代的速度越来越快,正在一天天改变着我们的生活,它正在慢慢成为如同基础设施一样的存在。

我请到了AI观察家、AI从业者及AI工具开发者归藏录了一期播客:

我们分别以从业者、开发者和使用者的角度来跟大家分享行业发展以及普通人用AI。

让AI真正成为能为你所用的好用工具,融入你的日常生活。

以下是本次播客对谈的主要内容:

01/现在AI的行业趋势是什么?

02/可灵凭什么能成为最好的视频生成大模型 ?

03/普通人应该如何使用AI?


让我们依次来看以上3个问题。


01/现在AI的行业趋势是什么?

随着技术的进步,AI不再只是科幻小说中的概念,它已经成为我们日常生活的一部分。

现在,行业内一些头部通过竞争降低了使用门槛,在AI模型变得越来越好的同时,价格也变得越来越便宜。

比如ChatGPT开始免费提供GPT-4o,Siri也能接入大语言模型了。

目前AI技术的发展为图像和视频领域带来了革命性的变化,我们可以用AI生成图,再把图变成视频。只需要写一下,你希望画面中的某一个东西怎么样运动就可以了。

这种模式也是通过几年间探索发展出来的新方向:

在2022年之前,AI是基于干模型发展的。干模型之前,它的变化幅度比较小,训练成本虽然比较低,但是它可能没什么创造力。

从22年开始,Diffusion架构出来了,大家开始去制作图像类的内容。在我们解决了图像问题之后,自然而然发展出来视频需求,因为视频就是连起来的图像。那我们能不能用这样的方式生成几个连续的图像,让它去变成视频。

但是基于Diffusion架构的模型有一个问题,它的运动幅度很小,大动以后容易崩,无法完成连续性。

不过在今年2月,Sora出来了,它使用的技术是Diffusion Transformer。Transformer可以理解为图像的基底架构,同时我们增加提示词的部分,它的根本架构也是Transformer架构。

这个模型把两者结合起来,一定程度上解决了之前连续性不足的问题,同时视频生成长度变长,运动幅度也越变越多。

所以整个的行业的研发方向,都变成了DIT架构的视频生成模型。

在我们能够接触到的工具中,可灵就是其中代表之一。


02/可灵凭什么能成为最好的视频生成大模型

想象一下,你只需输入几个关键词,甚至不用超过十个字,可灵就能生成一段生动的视频。

它在图像和视频生成领域被认为是当前几乎最好的模型之一:尤其在连贯性、运动幅度和自发行为方面表现出色。

连贯性、运动幅度和自发行为是对一个视频模型好坏的基本评判标准:

连贯性指画面中的物体在运动过程中,能不能保持整个ID的一致性和三维的一致性,比如在环绕一个物体的时候,其他面能够被补充出来,同时它是连贯的。

在上述前提下,物体能有多高的运动幅度,就是在一段5秒的视频里它能运动多快。

以及,它能不能有一些自发的行为——像在物理规律方面表现出一定的智能,比如扔出一个东西可以呈现重力作用下的抛物线,或者往水杯注水时水位会上升。

验证模型好坏还有一个简单定律:就是够逼真。

该亮的亮,该暗的暗,符合我们的认知。

可灵的大模型就用了很多相对真实的训练。它的美学表现虽然不是最优,但在真实性和美感之间,选择了更真实的效果。

此外,可灵能够根据你的提示词续写视频,一些运用工具比较熟练的用户甚至能用可灵创作一部武侠片。

这也为普通人提供了入门和使用AI的好时机,它将一句话变成了现实:“这是一个想什么是什么的世界。”

有了图像技术后我们还能看见一些温情的创造,通过AI生成老照片的动态版本,让尘封的记忆再次鲜活,这也是科技与人文的结合。


03/普通人应该如何用AI?

AI作为提高效率非常好用的工具,既能帮助完成日常工作中的重复性和耗时任务,也能帮助我们进行脑暴,探索新的可能。

在归藏看来,在我们使用AI时,最基础也最重要的有两点:

第一,尽可能地给它背景信息。

第二,尽可能地让它自己去反思。

这样能确保它每次输出的东西,自己会再想过一遍。

当它再想一遍反思的时候,就会发现一些它自己的问题。

举个例子:

当你要翻译一个文件,做出翻译要求后增加条件:“根据你第一遍输出的内容,反思里面的问题,然后基于基于反思的问题,针对第一遍你输出的内容进行修改,再输出一次结果。”

一次交互,它会按照排版回你三段。

如果我们想在使用AI工具的同时,自己也能得到提升,归藏老师有个小建议很实用:

利用AI迫使自己动脑筋。

你可以让AI扮成一位行业专家向你提问,以此进行深度思考。

同时我们也要注意一点,AI存在“幻觉”问题,也就是说AI生成的内容可能是假的,或者半真半假,需要大家自己进行判断和验证。

随着AI技术的发展,持续学习如何更有效地使用这些工具,保持与时俱进也是一件很重要的事情,比如归藏老师在AI领域就有一本非常详细的行动指南,见文章最后《AIGC 周刊》。

通过这些方法,普通人也可以更好地利用AI技术,提高生活和工作的效率,同时也能够享受AI带来的创新和便利。

要知道,在超级个体时代,每个人都可以是一个公司:

如果说新媒体渠道构成你的市场部,那么AI工具就构成你的技术部。

AI一点儿都不复杂,它是一个可以为你所用的工具,一匹让你策马奔腾的骏马。

别怕复杂,先上马。

关于归藏,你可以在这些地方找到他】

推特:https://x.com/op7418

微博:https://weibo.com/

公众号:歸藏的AI工具箱

小红书:https://www.xiaohongshu.com/user/profile/5c696b98000000001003043b

AIGC 周刊:https://quail.ink/op7418

Catjourney:https://catjourney.life/



点击阅读原文,收听本期播客↓

阅读原文

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI工具 视频生成 可灵 AI发展趋势 普通人使用AI
相关文章