歸藏的AI工具箱 2024年07月27日
AIGC Weekly #73
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周AI领域持续活跃,微软Build 2024开发者大会发布了Copilot+ PC、软件更新以及AI模型等内容,CanvaCreate大会则聚焦AI增强设计,Anthropic发布了关于LLM可解释性的新研究,Cohere发布了支持101种语言的Aya系列模型,Meta正在研发他们的Meta AI助手的高级版本,Open AI更新了离职协议,并与News Corp签署协议。此外,Scale AI完成10亿美元F轮融资,Suno筹集1.25亿美元,Open AI在首尔AI峰会上发表了他们的十项AI安全实践概述,TikTok推出了TikTok Symphony AI工具系列,Mistral 7B v0.3发布,ChatGPT数据分析优化上线,LLM竞技场推出了长难句提示词测试,字节跳动推出了AI陪伴型机器人应用猫箱和AI绘画应用星绘,Arc Sreach支持通过打电话获得信息,Perplexity与Tako合作给数据相关的问题加上了可交互图表,GitHub Copilot Extensions将Github与其他工具和服务连接,Tone推出始终录音的吊坠,Timmy推出AI财务助理,Narafy推出以标签为中心的AI笔记应用,ElevenLabs Audio Native推出可以嵌入网页的AI阅读播放器,GitHub CEO TED演讲讲述了AI对编程的革命性影响,Google CEO谈论基于人工智能的搜索和网络的未来,Tomasz Tunguz尝试了OpenAI推出的Mac ChatGPT应用程序,a16z讨论了多模态助手,LinkedIn和Microsoft的调查显示AI技术已经超出了企业的直接控制,LiteVAE推出用于潜在扩散模型的轻量高效变分自动编码器,研究探讨了一些语言模型表示是否本质上具有多维性,ReVideo提出了一种能够在特定区域通过同时指定内容和运动进行精确的视频编辑的方法,研究揭示了Transformer解码器特有的一种线性特征,FIFO-Diffusion提出了一种基于预训练扩散模型的新型推理技术,用于文本条件下的视频生成,本文提出了参数化世界知识模型(WKM),以促进智能体规划。

💥 **微软Build 2024开发者大会:**微软发布了Copilot+ PC,这是一款全新的Surface Pro和Surface Laptop,能够实现超过40 TOPS的运算速度,在运行AI工作负载时,性能提升多达20倍,效率提高多达100倍。此外,微软还发布了软件更新,包括Recall、图片编辑、LiquidText、实时字幕翻译、Windows Studio Effects等功能。Copilot也进行了更新,支持用GPT-4o进行语音对话和屏幕实时浏览并给出建议。

🎨 **CanvaCreate大会:**Canva推出了大量AI设计功能,包括Magic Media、Highlights、Resize & Magic Switch、Magic Grab、Styles、Magic Write、Enhance voice、Layouts等,旨在帮助用户重新设计工作,提升设计效率。

🧠 **Anthropic LLM可解释性研究:**Anthropic的研究人员成功地从Claude 3.0 Sonnet的中间层中提取了数百万个特征,为其计算过程中的内部状态提供了一个粗略的概念地图。这使得我们能够更深入地了解现代大型语言模型的内部运作机制,并操纵这些特征会导致行为上的相应变化,这证实了这些特征不仅仅与输入文本中概念的存在相关,而且还在因果上塑造了模型的行为。

🌐 **Cohere发布Aya系列模型:**Cohere发布了Aya系列模型,支持101种语言的响应,旨在弥合语言差距。Aya 23模型能够用101种语言遵循指令,在大多数任务上,Aya的表现优于mT0和BLOOMZ,同时覆盖的语言数量是它们的两倍。

🤖 **智能体规划中的世界知识模型:**本文提出了参数化世界知识模型(WKM),以促进智能体规划。WKM能够从专家和采样轨迹中自动综合知识,提供先验任务知识以指导全局规划,同时提供动态状态知识以辅助局部规划。实验结果表明,WKM能够有效缓解盲目试错和幻觉性行为问题,为智能体理解世界提供强有力的支持。

📈 **AI技术发展趋势:**本周的AI新闻反映了AI技术快速发展和应用的趋势,包括AI增强设计、LLM可解释性研究、多语言模型、智能体规划、AI安全实践等。AI正在改变各个领域,从设计、编程、教育到金融和智能体规划,未来将继续为人类社会带来更深远的影响。

🚀 **其他值得关注的进展:**除了上述重要新闻,本周还有许多其他值得关注的进展,例如OpenAI与News Corp签署协议、Scale AI完成F轮融资、Suno筹集资金、TikTok推出AI工具系列、Mistral 7B v0.3发布、ChatGPT数据分析优化上线、LLM竞技场推出长难句提示词测试、字节跳动推出AI应用等。这些进展表明,AI领域的创新正在不断涌现,未来将更加令人期待。

原创 op7418 2024-05-27 14:35 北京

封面提示词:A closeup of an abstract curved glass sculpturewith striped blue-green curves, centered on awhite background in high resolution photographicdetail, with insanely intricate fine details in the style of professional color grading and soft shadows --ar 16:9 --style raw  查看更多风格和提示词[1]


微信公众号上的链接实在不好处理,如果需要更方便的阅读体验的话强烈推荐去 quail 订阅:https://quail.ink/op7418/p/aigc-weekly-73

微软 Build 2024 开发者大会发布内容[2]

微软上周错峰开了发布会发布了一系列关于开发者的内容和完全革新的 Copilot+ PC,不过内容远没有谷歌 I/O 那么丰富。

Copilot+ PC的硬件介绍:

Copilot+ PC的软件更新:

Build开发者大会介绍:

CanvaCreate 大会用 AI 增强设计[3]

Canva 24号开了他们 2024 CanvaCreate 大会,主题是重新设计工作。整体依托数据反馈和 AI 工具对Canva做了相当大的重构,上线了一堆非常好用的 AI 设计功能:

Anthropic 关于 LLM 可解释性的新研究[4]

Anthropic 一直专注于 LLM 的可解释性研究以及对齐,上周他们发布了一个在他们看来是重大进展的研究,他们确定了数百万个概念在Claude Sonnet内部是如何表示的。

他们成功地从 Claude 3.0 Sonnet 的中间层中提取了数百万个特征,为其计算过程中间阶段的内部状态提供了一个粗略的概念地图。这是第一次详细地观察现代、生产级大型语言模型内部。

这些特征对应于各种实体,如城市(旧金山),人物(罗莎琳德·弗兰克林),原子元素(锂),科学领域(免疫学)和编程语法(函数调用)。这些特征是多模态和多语言的,可以对给定实体的图像以及其名称或描述在许多语言中做出响应。

还有更多抽象特征——比如回应计算机代码中的错误、讨论职业中的性别偏见,以及谈论保守秘密。

操纵这些特征会导致行为上的相应变化,这证实了这些特征不仅仅与输入文本中概念的存在相关,而且还在因果上塑造了模型的行为。

之后他们用这个发现整了个大活给 Claude 加了一个金门大桥模式,现在点击Claude 右上角大桥图标可以进入金门大桥模式,金门大桥这一概念在模型中被大幅加强。

即使没有提到金门大桥,回答也全跟大桥相关,这个研究的意义非常重大,普通人可以可以直观感受到 LLM 中概念合集的影响。

Cohere 发布 Aya 系列模型[5]

Cohere前两天的一个大活,他们联合 119 个国家的 3000 多名独立研究人员发布了 Aya 模型项目最离谱的一个模型支持 101 种语言的响应。

项目包括:

Arc Sreach:打电话获得需要的信息[19]

Arc Sreach 上周的新功能支持通过打电话的方式跟 Arc 语音交流获得对应的信息,其中有很多非常好的设计,比如屏幕上会展示返回和输入声音的文字,为了改善 LLM 的延迟给回复间隙加上了类似电话客服的音乐。长按浏览器图标选择”Call Arc”使用这个功能。

Perplexity:可交互图表[20]

Perplexity与Tako合作给数据相关的问题加上了可交互图表,这是一种新型的人工智能搜索引擎,用于可视化和分享世界知识。自然语言搜索生成可共享、引人入胜的显示,可以将其嵌入应用程序、搜索和叙事中。实时从权威、经过审查的提供者那里获取所有数据。

GitHub Copilot Extensions:将 Github 与其他工具和服务连接[21]

GitHub宣布推出GitHub Copilot Extensions,这是一种新的扩展功能,旨在通过与合作伙伴生态系统的集成,进一步提升开发者的体验和效率。

通过Copilot Extensions,开发者可以在不离开IDE或GitHub.com的情况下,使用自然语言与这些工具进行交互,从而保持开发流程的连贯性,提高技能,并加速创新。

企业可以创建私有的Copilot Extensions,以便将内部API库或自定义监控系统的知识集成到开发者的工作流程中。

Tone:一直在线的录音吊坠[22]

这是一种始终录音的吊坠,所以永远不会忘记事情。会自动捕捉生活经历、对话、想法和待办事项。

并帮助你运用它们做出更明智的决策和更有创意的选择。第一批(1000 台)将于 2024 年第四季度发货。

Timmy:AI财务助理[23]

你的 AI 消费伙伴。获取个性化的支出建议,Timmy 实时分析你的支出,建议预算,并提供每周任务,以实现财务目标。

Narafy:以标签为中心的AI笔记应用[24]

Narafy 是一个专为提高笔记效率而设计的应用程序,它具备以下特点:自动完成用户的句子,帮助用户保持组织性和专注,提供标签建议,使用 AI 助手从笔记中快速找到所需信息,以及通过标签组合创建不同的笔记堆栈以自动化工作流程。此外,Narafy 提供强大的搜索功能,帮助用户在知道 precisely 要查找的内容时快速找到笔记。它还支持制作美观的笔记,整理思绪,插入吸引人的图像,并且可以通过网络剪贴板捕捉信息。Narafy 的笔记存储在用户的设备上,确保随时可以访问,即使在没有互联网连接的情况下。数据同步功能可实现笔记的云端同步,使其在不同设备间可用。

ElevenLabs Audio Native: 可以嵌入网页的AI阅读播放器[25]

ElevenLabs 推出了一个名为 Audio Native 的工具,它能够自动为在线内容生成语音旁白,并允许用户将其嵌入到网站中。使用 Audio Native 的步骤包括登录、添加网站域名到允许列表、选择声音、自定义播放器外观,以及将嵌入代码复制并粘贴到网站上。此外,网站还提供了针对不同平台(如 React、Ghost、Squarespace、Webflow、Framer 和 WordPress)的集成指南。

Github CEO TED 演讲:AI 可以帮助任何人成为程序员[26]

Thomas Dohmke讲述了AI对编程的革命性影响,特别是通过GitHub Copilot实现的,让更多人能轻松参与编程。他以乐高为比喻,展示了如何通过自然语言与代码互动,并预示了未来更多人将成为开发者。

乐高比喻:Dohmke热爱乐高,并将其比喻为一种低门槛的创意实现方式,类比编程的未来。

编程语言的演变:从1940年的Plankalkül到1991年的Python,编程语言变得更接近自然语言,但仍然复杂。

GitHub Copilot的诞生:通过GPT-3,GitHub Copilot可以预测和完成代码,大大简化了编程过程。

自然语言编程:Copilot和ChatGPT结合,使得任何人都可以用自然语言编写代码,实现了人机语言的融合。

未来展望:Dohmke预测到2030年,将有超过十亿开发者,编程将变得像搭乐高一样简单。

Google CEO谈论基于人工智能的搜索和网络的未来[27]

AI 将为用户提供直接的答案。这一变化可能会对网站流量产生深远影响,尤其是对于新闻和媒体内容创作者。Sundar Pichai 认为,尽管这一变化可能会引起短期内的混乱,但他对网络的未来持乐观态度,认为新技术总是伴随着短期的干扰。

Pichai 强调,Google 对于维护一个健康的生态系统非常关心,并且认为用户对高质量内容的需求是不断增长的。他提到,AI 概览实际上增加了用户点击链接的比例,这表明用户对于更深入的内容仍然有兴趣。尽管有些网站所有者对于 Google 的变化表示担忧,认为这可能会导致他们的流量急剧下降,甚至破坏他们的业务,但 Pichai 认为这种转变不一定是零和游戏。

与她聊天 - Mac 上的 ChatGPT 应用程序[28]

Tomasz Tunguz 是一位风险投资家,他近期尝试了 OpenAI 推出的 Mac ChatGPT 应用程序。他认为这种与计算机对话的方式无疑是人机交互的未来,因为说话比打字更加自然。

Tunguz 看到了这类助手的潜力,比如通过语音撰写和发送邮件、在 Asana 中分配任务、总结网页内容并发表评论,以及校对文章并发布。他还提到了自己过去写的关于语音作为未来主导用户界面的文章,并认为我们现在比以往任何时候都更接近这一愿景。

a16z:GPT-4o 和 Gemini 找到自己的声音[29]

在AI领域,这是非常重要的一周,因为OpenAI和Google都发布了重大更新。这次更新非常重要,因此我们决定与消费者合作伙伴Bryan Kim和Justine Moore一起,以一种新的形式进行解析。我们讨论了那些已经具备语音功能的多模态助手,同时也探讨了为什么不同音频之间存在差异,以及速度和个性等细微之处为何如此重要。

人工智能已经改变了管理——公司必须决定如何应对[30]

根据 LinkedIn 和 Microsoft 的调查,大多数白领工作者已经在工作中使用了 AI,且多数情况下是在没有告知雇主的情况下使用自己的设备。这表明 AI 技术的普及已经超出了企业的直接控制。AI 的使用正在改变工作的本质,例如自动化报告和电子邮件等文档工作,这要求管理者重新评估员工的工作价值和贡献。随着 AI 生成的内容质量的提升,管理者面临着如何保持工作质量和深度的挑战。AI 也可以作为一个强大的辅助工具,帮助管理者进行个性化的员工培训和发展,但同时也可能导致员工感到被监控。因此,企业必须在使用 AI 的同时,平衡员工的自主性和隐私。

LiteVAE:用于潜在扩散模型的轻量高效变分自动编码器[31]

是一系列用于LDMs的自动编码器,通过利用二维离散小波变换来提高标准变分自动编码器(VAEs)的可扩展性和计算效率,且不牺牲输出质量。我们还研究了LiteVAE的训练方法和解码器架构,并提出了若干改进,提升了训练效果和重建质量。我们的基础LiteVAE模型在编码器参数减少六倍的情况下,达到了当前LDMs中现有VAEs的质量,从而训练速度更快且GPU内存需求更低,而我们的大模型在所有评估指标(rFID、LPIPS、PSNR和SSIM)上均优于复杂度相当的VAEs。

并非所有语言模型特征都是线性的[32]

探讨了一些语言模型表示是否本质上具有多维性。我们首先提出了不可约多维特征的严格定义,判断这些特征是否可以分解为独立或非共现的低维特征。受这些定义启发,我们设计了一种可扩展的方法,使用稀疏自动编码器自动识别GPT-2和Mistral 7B中的多维特征。这些自动识别的特征包括一些显著可解释的例子,例如表示星期几和月份的圆形特征。我们确定了利用这些圆形特征解决涉及星期几和月份的模运算任务。最后,我们通过对Mistral 7B和Llama 3 8B进行干预实验,提供了这些圆形特征是这些任务中计算基本单元的证据,并通过将这些任务的隐藏状态分解为可解释的组件,识别了更多的圆形表示。

ReVideo:通过运动和内容控制重新制作视频[33]

能够在特定区域通过同时指定内容和运动进行精确的视频编辑,从而区别于现有方法。内容编辑通过修改第一帧实现,而基于轨迹的运动控制提供了直观的用户交互体验。

ReVideo解决了一个涉及内容和运动控制之间耦合和训练不平衡的新任务。为了解决这一问题,我们开发了一个三阶段训练策略,从粗到细逐步解耦这两个方面。

此外,提出了一种时空自适应融合模块,在各种采样步骤和空间位置上整合内容和运动控制。大量实验表明,我们的ReVideo在几个精确的视频编辑应用上表现出色,即(1)在保持运动不变的情况下局部更改视频内容,(2)保持内容不变并定制新的运动轨迹,(3)同时修改内容和运动轨迹。我们的方法还可以无缝扩展到多区域编辑,无需特定训练,展示了其灵活性和稳定性。

你的Transformer其实是线性的[34]

揭示了Transformer解码器特有的一种线性特征,包括GPT、LLaMA、OPT、BLOOM等模型。我们分析了连续层之间的嵌入转换,发现了几乎完美的线性关系(Procrustes相似度得分为0.99)。然而,当去除残差组件时,因为Transformer层的输出范数一致较低,线性度下降。

我们的实验表明,移除或线性近似Transformer中一些最线性的块并不会显著影响损失函数或模型性能。此外,在我们对小型模型的预训练实验中,我们引入了一种基于余弦相似度的正则化方法,旨在降低层的线性度。这种正则化在Tiny Stories和SuperGLUE等基准测试中提高了性能指标,同时也成功地降低了模型的线性度。

FIFO-Diffusion:无需训练即可生成无限视频[35]

提出了一种基于预训练扩散模型的新型推理技术,用于文本条件下的视频生成。我们的方法称为FIFO-Diffusion,理论上无需训练即可生成无限长的视频。

实现方式是通过迭代执行对角去噪,同时处理队列中噪声水平不断增加的一系列连续帧;方法在队列头部取出完全去噪的帧,同时在队列尾部加入新的随机噪声帧。然而,对角去噪是一把双刃剑,因为尾部附近的帧可以通过前向参考利用更干净的帧,但这种策略会导致训练和推理之间的差异。

为此,我们引入了潜在分区以减少训练和推理的差距,并通过前瞻去噪来利用前向参考的优势。

智能体规划中的世界知识模型[36]

借鉴人类的心理世界知识模型在人类执行任务前提供全局先验知识,并在任务期间维护局部动态知识的方式,本文提出了参数化世界知识模型(WKM),以促进智能体规划。具体来说,我们引导智能体模型从专家和采样轨迹中自动综合知识。随后,我们开发了WKM,提供先验任务知识以指导全局规划,同时提供动态状态知识以辅助局部规划。

我们在三个复杂的真实世界模拟数据集上使用了三种最先进的开源大语言模型(Mistral-7B、Gemma-7B和Llama-3-8B)进行实验,结果表明我们的方法相比各种强基线表现更优。

此外,我们的分析表明,WKM能够有效缓解盲目试错和幻觉性行为问题,为智能体理解世界提供强有力的支持。

其他有趣的发现包括:1)我们的实例级任务知识可以更好地泛化到未见任务,2)弱WKM可以指导强智能体模型规划,3)统一的WKM训练具有进一步发展的潜力。


感谢大家看到这里,如果你也有想推荐的内容的话,可以私信我或者给我发邮件投稿。也可以分享给更多的朋友,让大家都有机会了解这些内容。








想要玩 Stable Diffusion AI 画图但是没有好的硬件的可以看一下揽睿星舟,做了很好的适配可以一键部署 SD 价格也很划算。最近还上线了优化的非常好的Comfyui,感兴趣可以试试https://www.lanrui-ai.com/register?invitation_code=9778

参考资料

[1]

查看更多风格和提示词: https://catjourney.life/

[2]

微软 Build 2024 开发者大会发布内容: https://blogs.microsoft.com/blog/2024/05/21/whats-next-microsoft-build-continues-the-evolution-and-expansion-of-ai-tools-for-developers/

[3]

CanvaCreate 大会用 AI 增强设计: https://www.canva.com/canva-create/

[4]

Anthropic 关于 LLM 可解释性的新研究: https://www.anthropic.com/research/mapping-mind-language-model

[5]

Cohere 发布 Aya 系列模型: https://cohere.com/research/aya

[6]

Meta AI 助手的高级版本: https://www.theinformation.com/articles/meta-is-working-on-a-paid-version-of-its-ai-assistant

[7]

更新了离职协议: https://www.cnbc.com/2024/05/24/openai-sends-internal-memo-releasing-former-employees-from-non-disparagement-agreements-sam-altman.html

[8]

在 Vivatech 上的演示: https://x.com/op7418/status/1794640089131450795

[9]

News Corp 签署协议: https://openai.com/index/news-corp-and-openai-sign-landmark-multi-year-global-partnership

[10]

F 轮融资: https://scale.com/blog/scale-ai-series-f

[11]

已筹集了 1.25 亿美元: https://suno.com/blog/fundraising-announcement-may-2024

[12]

十项AI安全实践概述: https://openai.com/index/openai-safety-update

[13]

TikTok Symphony AI工具系列: https://techcrunch.com/2024/05/22/tiktok-turns-to-generative-ai-to-boost-its-ads-business/?guccounter=1

[14]

Mistral 7B v0.3 发布: https://huggingface.co/mistralai/Mistral-7B-v0.3

[15]

优化已经上线: https://x.com/op7418/status/1792834688983384160

[16]

长难句提示词(Hard Prompts)测试: https://lmsys.org/blog/2024-05-17-category-hard/#note-enhancing-quality-through-de-duplication

[17]

猫箱: https://apps.apple.com/cn/app/%E7%8C%AB%E7%AE%B1-%E5%BC%80%E5%90%AF%E4%BD%A0%E7%9A%84-ai-%E5%A5%87%E9%81%87/id6475000292

[18]

星绘: https://apps.apple.com/cn/app/%E6%98%9F%E7%BB%98/id6475072892

[19]

Arc Sreach:打电话获得需要的信息: https://x.com/nateparrott/status/1793643577605796307

[20]

Perplexity:可交互图表: https://www.perplexity.ai/collections/Interactive-Knowledge-Cards-2FMyYxiKRfaUpOZLhO3NYw?utm_medium=social&utm_campaign=tako-launch&utm_source=social

[21]

GitHub Copilot Extensions:将 Github 与其他工具和服务连接: https://github.blog/2024-05-21-introducing-github-copilot-extensions/

[22]

Tone:一直在线的录音吊坠: https://tone.computer/

[23]

Timmy:AI财务助理: https://www.timmyapp.com/

[24]

Narafy:以标签为中心的AI笔记应用: https://www.narafy.com/

[25]

ElevenLabs Audio Native: 可以嵌入网页的AI阅读播放器: https://elevenlabs.io/blog/audio-native/

[26]

Github CEO TED 演讲:AI 可以帮助任何人成为程序员: https://www.youtube.com/watch?v=nv9WwHpOKEg&ab_channel=TED

[27]

Google CEO谈论基于人工智能的搜索和网络的未来: https://www.theverge.com/24158374/google-ceo-sundar-pichai-ai-search-gemini-future-of-the-internet-web-openai-decoder-interview

[28]

与她聊天 - Mac 上的 ChatGPT 应用程序: https://tomtunguz.com/chatgpt-app/

[29]

a16z:GPT-4o 和 Gemini 找到自己的声音: https://a16z.simplecast.com/episodes/a-big-week-in-ai-gpt-4o-gemini-find-their-voice

[30]

人工智能已经改变了管理——公司必须决定如何应对: https://www.ft.com/content/389e505c-a1cc-4176-a592-dd1d0fa171b8

[31]

LiteVAE:用于潜在扩散模型的轻量高效变分自动编码器: https://arxiv.org/abs/2405.14477

[32]

并非所有语言模型特征都是线性的: https://arxiv.org/abs/2405.14860

[33]

ReVideo:通过运动和内容控制重新制作视频: https://mc-e.github.io/project/ReVideo/

[34]

你的Transformer其实是线性的: https://arxiv.org/abs/2405.12250

[35]

FIFO-Diffusion:无需训练即可生成无限视频: https://jjihwan.github.io/projects/FIFO-Diffusion

[36]

智能体规划中的世界知识模型: https://arxiv.org/abs/2405.14205


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI 人工智能 LLM 大型语言模型 微软Build CanvaCreate Anthropic Cohere Meta OpenAI Scale AI Suno TikTok Mistral ChatGPT 字节跳动 GitHub Google
相关文章