徐文浩,任鑫 2023-04-25 11:22 北京
卷首语
这一期主题很简单:赶紧搞,但不用慌。
赶紧搞,指的是可以尽快把 AI 应用在具体业务中。有传统业务的,先学习网易,把 AI 融入工作流降本增效;想突破创新的,借鉴一下移动互联网发展史,从底层思考什么是“AI 原生”的产品设计和机会。
不用慌,一是说不用焦虑,不用熬夜追新热点新玩具,保证自己在时代的火箭上就好,就不用再力争前排了,保重身体先;二是说也不用太恐慌 AGI 把我们消灭掉,其实我们自己干掉自己的概率反倒更大一些(好像也没有安慰到……)。
从鸡血到躺平,面对AGI该干啥干啥的生存策略:讲的是不用慌、不用焦虑自己跟不上新热点。没关系的,因为连徐文浩同学都感叹自己“肝不动“了。我们就心态放平好了,热点总会过去,一时之先也会过去,但身体还得跟我们一辈子,别舍本逐末。
网易怎么用 AI 降本增效:抽象讨论看很多,但像网易这样系统性分享自己如何把 AI 嵌入工作流,每个环节提高多少效率,每个内容节约多少成本,还是少见。实战视角,很多启发,值得学习。
AI 创造的新能力,新场景?移动互联网时代,赢家不是早早布局的 3G 门户,也不是平台逻辑通顺的 91 应用商店。为什么会是微信,抖音和美团呢?AI 创造的新能力和新场景是什么?哪些产品可以走到最后?
安静的宇宙来源于没有AGI的世界会被我们用核武器毁灭?宇宙如此安静,大概率是因为智慧生物都毁灭在核爆里,而非死在 AGI 手上——因为核爆炸完就完了,但 AGI 灭掉主人之后还会叽叽喳喳到处跑啊。这样想想,是不是忽然发现,其实我们人类自己比 AGI 更值得让人担忧?
好啦,看文章吧~
PS,最后还是忍不住感叹一句,不论是躺也好,肝也好,最近半年的喧嚣热闹,比前几年的死寂萧条,还是好玩 100 倍啊,开心~:)
——任鑫
1
AGI
从鸡血到躺平,面对AGI该干啥干啥的生存策略
话说自己最近连续过了好几个月极其鸡血的日子。一方面是要给自己快速补课,一方面是每天又能看到大量的新产品和新思路。而且我自己是一度尝试全领域关注,也就是从模型理论的进展到应用的新想法新创意都要看,不过最近也深有一种“肝不动”了的感觉。
上周大语言模型的两个热点都在应用层,分别是AutoGPT和Generative Agents。虽然Idea一看到立刻就能猜到是怎么做的,但是总也要去搂一眼看看有什么意料之外的想法。模型侧,Databricks也给了Dolly 2.0,终于有可以商用的开源模型和对应的微调数据了。
? https://segment-anything.com/
而视觉也有两个大新闻,一个是Facebook的Segment Anything,另一个是OpenAI新发的能快速出图的Consistency Model。说实话就实在没有时间再去试一试了。
AGI看来在短短几个月内汇聚了巨大的技术圈的共识。无论原来是做应用开发、基础设施还是机器学习算法的,注意力全都转移到这个领域来,导致新东西层出不穷。
之前面对类似场景的应对策略都是“更加努力”,一个是因为的确AGI让人兴奋有兴趣,另一个是因为觉得找到了一个机会。但是在巨大的共识,或者说缺少“非共识”的情况下,后面一点是要存疑的。
特别是我一度尝试全领域跟进了解,如果说这个策略在去年底ChatGPT还没有火,或者2-3月份刚火的时候,还能靠减少睡眠看似有可能做到。显然在最近已经完全不可行了。特别是有些领域如果深入下场动手非常花时间。比方说,如果过去几个月在疯狂卷分布式训练优化,那么可能DeepSpeed-Chat出来就要歇菜了。
反思了一下,最近要把策略开始从“鸡血”转向“躺平”了。还是回去关注核心能力,而不是尝试全领域跟进。不熬夜,不鸡血,该周末休息一下休息一下。保障自己在牌桌上,而不是觉得自己可以因为多花一个小时领先别人。目前大家觉得我算是个“专家”,也并不是因为最近一个月看了多少的原因,更多也是因为的确干了很多年算法和NLP相关的工作。
有机会参与AGI本来就是很有乐趣的一个事情,不要把自己搞得过于“苦”而丢了乐趣。“躺平”当然不是说不关注领域了,但是坚决不搞天天肝到半夜,周末累到崩溃的事情了。而且大部分对于“热点”的跟进也属于无效劳动,除了多了一些谈资也没啥用。
这一点其实也对大部分人都适用,没必要有啥AI焦虑,了解在自己领域内的应用,保持身心健康。原来该干啥还干啥,有好奇心转行搞AI也可以。不感兴趣等待时代发展变迁就是了,反正再过个三五年,等更强大的AI出来,大家手上的这些知识和能力都只能拿来娱乐了。即使深蓝战胜卡斯帕罗夫快要30年了,国际象棋还是一个有趣的人类活动不是么。
2
WORK WITH AI
网易怎么用 AI 降本增效
每个人都在讨论 AI 对工作的冲击或者帮助,但大部分时候是零碎的场景描述或者抽象的数据分析。上周看到网易的三篇文章,非常详细描述了如何在工作流中嵌入 AI,对工作效率量化提升了多少,节省了多少成本,推荐大家看一下。
比如,传统的影视动画分镜,需要耗费资深设计师 2 天或者高级设计师 3-4 天时间
而使用 ChatGPT + Midjourney,只需要通过 ChatGPT 根据项目主题描述生成更改(1H),用梗概输入 ChatGPT 让其生成故事和段落,并让它给到项目的美术风格建议或参考(1H),然后讲段落描述文案分段输入 Midjourney,让 Midjourney 生成对应数据,部分图片手动调整再次叠图(4H),一个非美术岗位同事 7-8 小时就能搞定,而且过程中可以产生更多的创意灵感内容。
另外,文章里还有业务方自己用 ChatGPT 做截图工具,产品组用 ChatGPT 做 Amzon 多语种商品详情页的案例。
后者是用 ChatGPT 提效,它来写文案很容易比人工更高效更好,很容易想到;但前者其实是一个很大的被忽略的机会空间,这个空间里,ChatGPT 未必做得比专业人士(比如资深程序员)更好,但它可以让原本不可能自己研发专属软件的业务人员设计开发解决自己具体小问题的小工具。打开 non-user 市场,才是真正的颠覆式创新。
具体到设计领域。网易用 MJ 来生成调性图:
材质特写(原本均价 800-1200 一张):
版权图片(原本均价 1500 一张):
模特换装:
……
还有各种包装产品设计应用,推荐看原文。
有个比较新颖的例子是讲猫粮产品拍摄,其实模特的服从性和寻找匹配场景很费事,用 MJ 好像效果更显著。
总的来说,商品内容生产流程都会发生重大变化:
而在具体流程中,还有几个点很有意思。
一是很多时候,AI 生成画作是用来”和甲方沟通“的,而不是最终稿。
二是网易会结合 ChatGPT 的想象力和英语能力,会把想要表达的概念让 ChatGPT 来描述一番,翻译成英语,然后再使用 MJ 或者 SD。
三是很多终稿是拼接出来的,可能让 MJ 画了一个光柱,然后又画了一个城堡背景,然后再拼装,不见得是一次成稿。
强烈建议看一下,下面三篇文章。
觉得这些实践者一线实战分享,比评论家点评更有价值。
延伸阅读
? https://www.uisdc.com/aigc-in-asak
3
PRODUCT
什么是 AI 原生应用
之前聊过一次 AI 原生应用应该怎么设计。
以史为鉴,USV 曾在 2009 年,列出过手机所具有的“新要素“(Primitives),包括:
Location 位置:GPS 能方便定位
Proximity 距离:都有定位了之后,方便计算距离
Touch 触碰:方便的手势触控界面
Audio Input 音频输入:手机都自带麦克风
Video Input 视频输入:手机都带了很方便的摄像头,而且拍摄的照片就可以通过手机直接查看和处理
原生的应用,应该要充分发挥这些新要素。而且,更重要的并不是单个要素(历史上其实都存在过),而是考虑如何重新组装这些新要素,创造出新的产品。
印象中刘芹在解释为什么投资快手的时候,也讲过类似的逻辑——智能手机快速普及,而手机自带摄像头是个新要素,快手看起来可以用好这个新要素,未来可能打开富媒体的新社交网络空间。
还有一个隐含的”新要素“,其实是”新场景“。手机随身带,所以出现了随时随地使用的场景(比如到目的地再开大众点评找好吃的店),也出现了大量的碎片场景(比如等电梯的 1 分钟刷一个短视频)。
从类似逻辑出发,这一轮 AI 创造了哪些新能力、哪些新场景?
新能力包括自然语言理解能力、自然语言生成能力、多模态感知能力、多模态内容生成能力、内容形态转化能力、常识和推理能力。
自然语言理解能力,让机器可以理解自然语言表达的复杂需求,使得“功能强大”和“交互简易”变得不再矛盾,复杂性可以封装在内部,通过语言来自然调动,而不需要通过复杂的 UI 设计来提供。从这个角度说,专业产品的使用门槛都会大幅度降低。
自然语言生成能力呢?除了显而易见地写文案之类,更大的一个市场可能是“装人”。只要是动嘴的工作(从客服到老师,从销售到律师),本质上都是通过生成自然语言来创造价值。从这个角度,可以设计产品来创造更多的”服务人员”,比如为孩子做一个安徒生专门给他们讲他爱听的童话。
多模态的感知能力和内容生成能力呢?应该是更丰富的上下文(类似手机知道我们位置和专车位置,就方便匹配了)和更深度的用户洞察,这时的匹配或者定制化生成就更简单自然了。但是沿着条路发展下去,在体贴入微的机器人对比下,很容易让真实世界的人类显得“不近人情”,或许自然人类间交互反倒会更困难。
常识和推理能力呢?所有的公司成本构成中都有很大一块是“人力成本”,而这部分人力成本购买的其实是“专业知识 + 常识 + 推理能力”,但专业知识可以配备专有数据库(ps, GPT 在各种专业考试都可以考高分),所以只要有了常识和推理能力,理论上绝大部分岗位工作都可以胜任。
……
会出现哪些新场景呢?
自然语言交互,首先能想到的就是可以解锁不方便用 GUI 的场景,比如开车、走路时也可以和自己的助理机器人讨论安排工作;其次是出现大量非专业人士操作专业软件的场景,比如业务人自然语言编程做软件,程序员问 AI 要财务报表分析;最后,也有可能会有越来越多的产品能开口说话,比如家里的热水器坏了,会自己告诉你应该怎么办……往好听了说叫“万物有灵”。
多模态感知能力,可能会带来的是更加极致的用户洞察(现在抖音可能就比很多用户够了解 TA),而当我们认可机器比自己更了解自己之后,可能会逐步让渡更多的决策权(类似现在我们把“挑片子“的权力给抖音),很多时候 Copilot 会变成驾驶员,我们把自己降级为躺平的乘客。
多模态内容生成能力,可能使得完全以用户为中心成为可能。现在那怕是抖音的个性化,也是把世界上已有的内容,找到可能最匹配的推送给用户。但如果生成能力发展起来,完全可以为每个人当下具体情况生成最适合 TA 的一份内容。超个性化在教育上应该很有希望,但在教育之外的领域感觉会让信息茧房更严重。
常识和推理能力,会创造什么新场景呢?不知道……欢迎留言:p
延伸阅读
? https://www.usv.com/writing/2009/06/the-mobile-challenge/
? https://36kr.com/p/2191091183435906
4
AGI
安静的宇宙来源于没有AGI的世界会被我们用核武器毁灭?
标题是最近看到特别有意思的一篇文章的观点,也算是为AI Safety这个问题给了一个新的视角。
? https://forum.effectivealtruism.org/posts/6j6qgNa3uGmzJEMoN/artificial-intelligence-as-exit-strategy-from-the-age-of
这个视角也算是很多科幻小说的一个有趣的切入点,那就是为何宇宙如此安静?人类所在的地球是不是宇宙里面孤独甚至是唯一存在高等智能的星球?
《三体》给出的答案是并非如此,宇宙之所以安静是因为宇宙是个黑暗森林。大家都害怕,所以不往外发信息。不过这篇文章给了另外一个假设,那就是“高等智慧自己太危险了,会用核武器毁灭自己”。
一旦有了这个假设,那么极其安静的宇宙不是因为我们才是唯一的高等智慧生命,而是因为宇宙是一个巨大的坟场。所有的高等智慧生命,都在科技树发展到一定程度之后,因为内部的核战争毁灭了自己。而事实上,在冷战结束之前这个风险在人类地球上也一直存在。不然也就不会有“末日时钟”和古巴导弹危机了。只不过,在90年代后随着全球化的发展和普遍交流,这个危险似乎又消失了。直到过去几年,因为各种原因似乎这样的风险又在重新抬头。
然后,和很多普通人观点里面,AGI可能诱发“AI毁灭人类”的想法不同。这篇文章觉得,AI如果能够超越人类的有限智慧,就能提出比人类现有治理模式更好的社会发展方向。文章里一个拍脑袋的想法,就是依托于核能的分散而广泛的制造业和能源供给。差不多也就是老子“小国寡民,鸡犬相闻,老死不想往来”的路径。
无论对错,这个算是我最近看到少有的有些新意的文章了。没想到在AI快速发展的时候,我们的想象力还是那么匮乏。大部分人除了Copilot就是AI Assistant,从这个角度来说,我们也还远远没有等待真正AI Native的产品出现。
待办清单
直播预约