歸藏的AI工具箱 2024年07月27日
AIGC Weekly #72 狂欢后的平静
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本周 AI 领域重要事件包括 OpenAI 发布 GPT-4o,支持多模态输入和输出,并集成到 ChatGPT 中;Google I/O 发布会全面升级 AI 产品,包括 Gemini 模型家族、搜索、Workspace 和 Photos 等。此外,OpenAI 内部矛盾爆发,超级对齐团队负责人 Jan Leike 离职并指责公司对该团队不公平对待。

💥 OpenAI 发布 GPT-4o,支持多模态输入和输出,并集成到 ChatGPT 中。GPT-4o 可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它在视觉和音频理解方面表现特别出色,同时在文本方面与 GPT-4 Turbo 性能相当。 ChatGPT 也迎来了更新,支持利用 GPT-4o 进行实时的语音和视频对话,并发布了 Mac 版本的客户端,支持获取桌面内容进行对话。免费用户可以使用 GPT-4o,并享受 ChatGPT Plus 的发布分功能,但目前只有文本模型,额度有限制。

🚀 Google I/O 发布会全面升级 AI 产品,包括 Gemini 模型家族、搜索、Workspace 和 Photos 等。Gemini 模型家族包括 Ultra、Pro、Flash 和 Nano 四个模型,分别针对不同的任务和场景进行优化。搜索方面,AI Overviews 功能将 AI 总结引入搜索结果,并支持多步骤推理和视频提问。Workspace 集成了 Gemini Pro 1.5,可以帮助总结查找邮件内容和编写邮件回复。Photos 也增加了 Ask Photos 功能,可以帮助用自然语言搜索图片和视频。

🚨 OpenAI 内部矛盾爆发,超级对齐团队负责人 Jan Leike 离职并指责公司对该团队不公平对待。Jan Leike 认为 OpenAI 领导层在公司核心优先事项上存在分歧,导致他的团队在计算资源等方面遇到了很多困难,使得关键研究工作变得越来越困难。他认为 OpenAI 应该把更多精力放在为下一代 AI 模型做准备,包括安全、监控、应变能力等方面。

🤔 关于 AI 安全的争论:杨立坤认为担心现在 AI 模型会造成安全问题是杞人忧天,他将现在担心 AI 安全的人比喻成1925年有人说“我们迫切需要弄清楚如何控制能够以接近音速跨越大洋、运输数百名乘客的飞机。”“在发明涡轮喷气发动机之前,在任何飞机能不间断飞越大西洋之前,长途客机的安全性是难以保证的。然而,现在我们可以安全地乘坐双引擎喷气式飞机飞越半个地球。这并不需要什么神奇的安全配方,而是经过了几十年的精心设计和不断改进。”我们的人工智能还处于早期阶段需要很多年才能达到人类的智能水平,所以需要不断的平衡效率和安全性,而不是把安全无限放大。

💡 AI 应用的快速发展:除了 OpenAI 和 Google 的重大发布之外,本周还出现了许多其他值得关注的 AI 应用,包括 Kimi 智能助手、Arc Search AI 搜索、Anthropic 聘请前 Instagram 联合创始人和首席技术官 Mike Krieger 担任首席产品官、Hume 的 EVI API、Midjourney 私人 Room 创建功能开放、字节发布豆包系列模型、零一万物发布 Yi-Large 模型、宇树科技发布 Unitree G1 机器人、OpenAI 宣布与 Reddit 达成合作伙伴关系、viva 视频生成工具、Slax Reader 浏览器插件、Wegic 网页生成工具、TestSprite AI 测试解决方案、User Evaluation 用户研究工具、FeaturesVote 用户反馈工具等。这些应用表明 AI 正在快速渗透到各个领域,为我们带来更多便利和可能性。

原创 op7418 2024-05-20 11:15 北京

封面提示词:A pastel drawing of the sky over an island, with yellow clouds and purple, blue, green and pink hues, reflecting on the water. In the style of Matisse's art. The background is a landscape of mountains. A closeup shot captures details like brush strokes and textures, (openai style) --sref https://s.mj.run/V_p3uNVi1BY --ar 16:9  查看更多风格和提示词[1]


微信公众号上的链接实在不好处理,如果需要更方便的阅读体验的话强烈推荐去 quail 订阅:https://quail.ink/op7418/p/aigc-weekly-72

Open AI 的 GPT-4o 发布和 ChatGPT 演示[2]

上周一 Open AI 的发布会虽然只有短短 25 分钟,但是直接把所有人都震撼了,能够把比 GPT-4 还强很多的真正的多模态模型的推理速度压缩到这个地步真是离谱。

Open AI 虽然产品能力不行,但是可以用模型的进步替代产品的优化和复杂迭代。

而且这次的产品和模型更新摆明了就是要收集更多的多模态信息,但是没办法我还是得用,同时再加上跟最大入口 Apple 的合作,数据问题现在应该已经不是问题了。

强烈推荐看一遍GPT-4o 发布页的所有视频演示和文本演示。

Sam 自己写了一条博客[3]来阐述他对GPT-4o的看法。他们的阶段性目标获得了更新:

“用最低的价格甚至是免费,将最好的模型提供给世界上所有人”

关于GPT-4o 模型更新[4]

ChatGPT产品层面的更新[5]

除了上面在发布会发布的能力之外,Open AI 还发布了一部分新的 ChatGPT 能力[6]

一些产品使用方法和技巧

orangeai 发布的破解 ChatGPT Mac 版本使用权限的方法:https://x.com/oran_ge/status/1791825374143488160

使用 GPT-4o 快速从白板草图生成前端组件的案例:https://x.com/op7418/status/1791279683910451305

使用 ChatGPT Mac 版本用一分钟生成一个 Mac 应用的案例:https://x.com/op7418/status/1791697320079430134

Google I/O 发布会的内容

Google 紧随 Open AI 开了今年的 I/O 发布会,一个字概括就是全。模型层面所有的指标都在卷,同时也发布了所有现在主流的模型类型。产品层面所有的产品内容全部都接入了 AI 能力,包括命根子搜索也做了大刀阔斧的 AI 改革。

模型侧的更新内容[7]

    Ultra:“最大的模型”(仅在Gemini Advanced提供)

    Pro:“最佳总体性能模型”(在 API 预览版中提供)

    Flash:“轻量级速度/效率模型”(在 API 预览版中提供)

    Nano:“设备上模型”(将内置于Chrome 126中)

Gemini Gems 谷歌的 GPTs,支持自定义与 Gemini 的互动方式。

Gemini Live :“使用声音进行深入的双向对话的能力。”,Project Astra 实时视频理解个人助理聊天机器人,就是基于这个能力。

Gemma 2:6 月发布规模为27B(之前为 7B 和 2B),以一半的尺寸提供接近 Llama-3-70B 的性能。

PaliGemma:谷歌的第一个视觉语言开放模型,灵感来自PaLI-3 。

Veo:DeepMind 对标 Sora 的模型,HN 上有些体验过的人表示不太行,国际象棋的棋盘和棋子生成的都不对。

Imagen 3:图像模型,能够理解人们自然书写的提示,生成更高质量的逼真图像,并且在渲染文本方面表现卓越。

Music AI Sandbox:旨在彻底改变音乐创作方式的AI工具套件。用户能够全新创作乐器部分,轻松在不同曲目间转换风格。

Trillium:最新的TPUs,在每颗芯片的计算性能上,相比上一代TPU v5e,实现了高达4.7倍的显著提升。

其中值得关注的演示内容有两个一个是 Veo 视频生成模型[8]的,一个是 Project Astra 多模态融合交互[9]的。

产品侧的更新内容[10]

    AI Overviews:今天将开始向美国所有人推出,很将能够通过选项调整 AI 概述,以简化语言或更详细地解释。

    引入多步骤推理能力,这一功能能够将复杂的问题拆解成多个小部分,明确解决问题的顺序和方法。

    很快就能在搜索中使用视频提问了。

    提前计划:在搜索中直接具有规划功能,可以为需要的任何事物制定计划,从餐饮到度假。

    AI 组织的搜索结果:搜索将使用生成式人工智能与您进行头脑风暴,并创建一个由人工智能组织的结果页面(跟 Arc 那个 Demo 类似)。

Workspace(Gmail): 内置了Gemini Pro 1.5,可以帮助总结查找邮件内容和编写邮件回复。

谷歌文档:侧边栏的 Gemini Pro 1.5 集成,文档的改写总结等。

谷歌表格:使用 Gemini 和 Data Q&A 功能请求帮助,创建表格和数据分析等功能在今年晚些时候推出。

Google Photos:Ask Photos可以帮助用自然语言搜索图片和视频,可以理解并回答复杂问题。

Circle to Search:现在成为了极佳的学习小帮手,可以在手机或平板上圈选复杂的物理问题,获得分步骤的指导帮助你学会解题。

要安全还是要发展:Open AI 宫斗第二季梳理

Open AI 宫斗积累的剩余矛盾终于在 GPT-4o 的发布会结束之后爆发了,感觉 Open AI 的宫斗跟快成了发布会之后的保留节目了。

核心还是 Ilya 主张的安全为主的加大对模型安全投入的超级对齐团队和以 Sam、Greg 为首的主张优先发展模型效果的管理层的矛盾。

首先是 15 号长时间没有发声的 Ilya 宣布正式离开 Open AI[11],场面很和气同时还说会在合适的时候公布自己新事业的信息,Sam 和 Greg 也发了推回应和感谢了 Ilya 的付出。

然后是现任的Open AI 超级对齐团队负责人 Jan Leike 宣布离职[12],同时还曝光了 Open AI 对模型对齐团队不公平的对待。

他认为 OpenAI 领导层在公司核心优先事项上存在分歧,导致Jan Leike 的团队在过去几个月里遇到了很多困难,包括计算资源不足等问题,使得关键研究工作变得越来越困难。

同时Jan Leike 认为 OpenAI 应该把更多精力放在为下一代 AI 模型做准备,包括安全、监控、应变能力等方面。

Jan Leike 应该是离职的人中首次明确的说自己受到的不公正待遇的,然后晚上 Sigal Samuel 就发布了一篇爆料文章[13]解释了为什么之前从 Open AI 离职的人一般不会说明自己的情况。

因为OpenAI 通常会要求离职员工签署包含不贬损条款的离职协议。如果拒绝签署,他们将失去公司股权,这可能意味着损失数百万美元。

然后在 18 号 Sam 发推文承认[14],公司离职文件中确实有一项关于“潜在股权取消”的条款,但是他们从来没有真的启用过这个条款收回过任何人的股权,同时他不知道协议中有这条内容,公司也正在修改这项条款。

有趣的是2014 年还在 YC 的时候 Sam 还写过一篇博客[15],阐述了初创公司对于员工股权分配的问题并且给出了一些如何保障初创公司员工正常获取股权收益的建议。

过了十年曾经的屠龙者变成了恶龙。

同时 Sam 和 Grog 还针对 Jan Leike 的发言起草了一个声明[16]大致意思是说模型的安全和能力发展同样重要,他们也做了很多事情来保证模型的安全。这个声明看起来很长但其实都是片汤话,评论里很多人说感觉像 ChatGPT 写的。

上面就是事件目前的一个发展情况,同时社区也有一些其他的看法比如 Daniel Jeffries 认为[17]超级对齐团队的离开不是因为他们看到了他们无法应对的超级先进AI,而是因为他们研究后认为这种 AI 短时间不可能出现。

然后 Open AI 的领导层就开始缩减给超级对齐研究团队的资源开始做一些更实用的事情,比如用来构建产品改善体验。

杨立坤也表示认同上面这种说法。同时也罕见的认为 Sam 的这个操作是正确的担心现在的 AI 模型会造成安全问题是杞人忧天[18]

他将现在担心 AI 安全的人比喻成1925年有人说“我们迫切需要弄清楚如何控制能够以接近音速跨越大洋、运输数百名乘客的飞机。”

“在发明涡轮喷气发动机之前,在任何飞机能不间断飞越大西洋之前,长途客机的安全性是难以保证的。然而,现在我们可以安全地乘坐双引擎喷气式飞机飞越半个地球。这并不需要什么神奇的安全配方。而是经过了几十年的精心设计和不断改进。”

我们的人工智能还处于早期阶段需要很多年才能达到人类的智能水平,别说超过人类了,所以需要不断的平衡效率和安全性,而不是把安全无限放大。

我总体上认同他的意见,人工智能现在是很早的阶段,我们还有非常多重要的事情要做,安全很重要但在早期阶段吃饱饭更重要。

viva:首个可供使用的 Dit 架构视频生成工具[27]

海外产品 viva 发布了首个开放给全部用户使用的 Sora 同架构视频生成模型,而且现阶段免费。支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。文生视频单次可以生成一条 5 秒的视频,图生视频是 4 秒视频。

我测试了一下应该是目前运动幅度最大的视频生成模型,同时图像分辨率也是现在可以用的视频生成产品中最大的。

Slax Reader:AI 阅读辅助浏览器插件[28]

AI 辅助阅读的浏览器插件,不是非常简单的内容总结,这个可以给出非常详细的文章大纲和思维导图帮你理解文章内容,

Wegic:即时设计团队推出的 AI 网页生成工具[29]

尝试了一下,Wegic 这个 AI 网页生成工具也太好了。

通过对话来生成和修改页面门槛确实低了很多。整体网站设计和 IP 都太好了。 IP 尤其可爱。

而且生成的网站从内容和美观度上都很好,内容也很丰富。如果补齐一下能力的话可能是 Framer 一个很强力的对手。

TestSprite - 全自动端到端 AI 测试解决方案[30]

TestSpriteAI驱动的全自动端到端测试解决方案。该平台旨在加速产品发布并提高成本效率。主要功能包括:

User Evaluation:AI 帮助进行用户研究[31]

User Evaluation 是一个利用人工智能(AI)来提升用户研究和数据分析的工具。

功能特点

FeaturesVote:利用用户反馈帮助增长[32]

FeaturesVote 是一个帮助企业通过用户反馈来驱动产品增长的工具。其主要功能包括:

SEO 2.0 的必要性[33]

随着 AI 搜索越来越多,包括谷歌自己也在搜索前加上了 AI 总结,可能针对 AI 的 SEO 也越来越重要。比如搜索最适合数字游民的城市谷歌 AI 概览的结果就和正常的搜索结果排序不同。

里面简要介绍了什么是 SEO2.0 以及怎么做针对 AI 的 SEO。

AI Native Apps 开发的一些实践和思考

前 MiniMAX 产品 orangesai 关于 AI Native Apps 的一些思考,如果你也踩过这些坑应该会很有共鸣,下面是几条我觉得重要的:

斯坦福CS25:语言模型微调和对齐[34]

之前介绍过的斯坦福大学新的 CS25 课程放出了Nathan Lambert博士讲课的视频,他是 AI2 的研究科学家。

新的 CS25 课程将会邀请各大 AI 公司的顶尖人才讲解前沿的 Transformer 研究。

这节课的主要内容是希望为听众提供对语言模型微调和对齐领域的深刻理解。

工具和感觉:如何塑造我们与工具的关系[35]

人工智能是否只是另一种工具?如果我们追溯工具的历史到最早的已知例子,我们会发现在肯尼亚发现的估计有300万年历史的磨尖石头。这些石头可能用于切割和砍伐。它们也可能被用作武器。虽然工具扩展了人类的创造力和同情心,但它们也扩展了我们的残酷性。

我们应该问人工智能能为我们做些什么,而不是它会对我们做些什么。

John Schulman(Open AI 联合创始人)访谈[36]

John Schulman表示,预训练的目标是生成网络内容,后训练针对聊天助手等具体行为。未来几年,模型将更强大,执行更复杂任务,改善泛化能力和样本效率。预训练和后训练的组合将增加新应用场景,提高工作效率。需要制定监管政策以保持人类参与和模型对齐。OpenAI发布的模型规范旨在解决冲突,遵循指令,帮助用户和开发者,避免伤害。讨论了机器学习文献质量和AI助手未来发展。

十字路口的好莱坞:“每个人都在使用人工智能,但他们害怕承认这一点”[37]

文章讨论了好莱坞在使用人工智能(AI)方面的现状和争议。尽管AI在电影制作中被广泛使用,但许多人不愿公开承认。电影协会CEO Charles Rivkin认为,如果有适当的保护措施,AI可以创造就业机会。文章提到了一些具体案例,如恐怖电影《Late Night With the Devil》和A24的《Civil War》,它们因使用生成式AI工具制作的图像而引发争议。观众对这些AI生成的图像表示不满,认为它们存在不准确和不一致的问题。尽管这些电影的制作成本中雇佣或委托概念或图形艺术家的费用微不足道,但使用AI的先例可能会导致未来编剧和视觉特效艺术家的工作被取代。行业领导者对AI的看法不一,有人认为它能解锁创造力和机会,而另一些人则担心它会威胁就业。

a16z:[38]生成式AI如何重塑UI/用户体验设计[39]

探讨了生成式人工智能(Generative AI)在用户界面(UI)和用户体验(UX)设计中的应用及其带来的变革。以下是文章的主要内容:

    生成式AI工具的应用:文章介绍了在一个名为AI-Tamago的项目中,使用了Vercel v0等生成式AI工具来设计UI。通过多次迭代和细化描述,生成式AI工具帮助团队快速从概念到可操作的应用程序。

    效率提升:生成式AI技术显著缩短了从创意到实现的时间。这种效率提升为创意过程带来了新的可能性,使生成式AI成为设计过程的核心。

    设计过程的变革:生成式AI技术在快速原型设计和代码完成方面表现出色,能够弥合设计和工程之间的差距。大语言模型(LLM)可以作为设计的灵感来源,每个提示都会生成多个模型,从而激发创造力。

    跨学科理解:生成式AI模型通过在多样化数据集上的训练,发展了对编程语言、设计原则和UX指南的复杂理解。这使得它们能够应用UI模板和框架,如Tailwind,来简化设计过程。

    未来展望:尽管生成式UI在日常软件中的应用还处于初期阶段,但已有足够的例子表明其未来前景广阔。生成式UI的兴起不仅改变了行为模式,还将设计和工程的语言统一起来,减少了翻译过程中的信息丢失。

研究:通过埃森哲量化GitHub Copilot对企业的影响[40]

主要探讨了GitHub Copilot在企业环境中的实际影响,特别是与埃森哲(Accenture)合作进行的研究结果。以下是文章的主要内容总结:

    研究背景

研究方法

主要发现

具体改进

Chameleon: 混合模态早期融合基础模型[41]

Meta 的论文,它可以同时处理图像和文本。Chameleon通过将图像和文本转化为同一种表示方式,使得一个模型能够理解和生成混合内容。该模型在图像描述、文本生成等任务中表现出色,甚至超过了一些专门处理单一模态的模型。就是类似 GPT-4o 的模型。

Gemini 1.5 Pro 技术报告[42]

1.5 Pro超过了1.0 Ultra,1.5 Flash(Google最快的模型)几乎与1.0 Ultra相当。

在技术报告的第7节中,展示了Gemini 1.5 Pro的一个专门用于数学的变体的新成果,这个变体在竞赛级数学问题上表现出色,包括在Hendryck的MATH基准测试中取得了91.1%的突破性成绩,而且不需要使用任何工具。

超越缩放定律:使用联想记忆理解变压器性能[43]

这个论文有意思,详细研究了基于Transformer的语言模型在记忆过程及性能变化上的机制。

一定程度解释了为什么简单地增大Transformer模型的规模并不一定能提升其性能。

论文将Transformer模型的行为与Hopfield记忆网络进行类比,提出每个Transformer层都在执行近似的最近邻搜索。

Idefics2,一个拥有80亿参数的高效基础VLM[44]

Idefics2,一个拥有80亿参数的高效基础VLM。开源了模型(基础版、指令版和对话版)以及用于其训练的数据集。

通过广泛的实验,研究了预训练模型、模型架构、数据选择和训练方法,目的是找出哪些设计选择对模型性能有实际影响。

腾讯混元DiT图像生成模型[45]

这是一个具有对英语和中文进行细粒度理解的文本到图像扩散变压器。为了构建混元-DiT,我们精心设计了变压器结构、文本编码器和位置编码。我们还从头开始构建了一个完整的数据管道,用于更新和评估数据以进行迭代模型优化。为了进行细粒度的语言理解,我们训练了一个多模态大型语言模型来完善图像的标题。最后,混元-DiT 可以与用户进行多轮多模态对话,根据上下文生成和完善图像。

Anyline:强大的 Controlnet 线条预处理器[46]

Anyline 是一个 ControlNet 线预处理器,可以准确提取大多数图像中的对象边缘、图像细节和文本内容。用户可以输入任何类型的图像,快速获得具有清晰边缘、足够细节保留和高保真度文本的线条图,然后将其用作 Stable Diffusion 中条件生成的输入。目前只可以在 ComfyUI 中使用。

CAT3D:使用多视图扩散模型在3D中创建任何东西[47]

谷歌的研究,它通过多视角扩散模型模拟这种现实中的捕捉过程,从而能够在3D中创建任何东西。无论输入多少张图像,只要设定好目标视点,我们的模型都能生成高度一致的场景新视图。这些生成的视图可以作为稳健的3D重建技术的输入,用来生成可从任何视点实时渲染的3D表示。CAT3D可以在短至一分钟内创建整个3D场景,并且在单图像和少视图3D场景创建方面表现优于现有方法。


感谢大家看到这里,如果你也有想推荐的内容的话,可以私信我或者给我发邮件投稿。也可以分享给更多的朋友,让大家都有机会了解这些内容。


参考资料

[1]

查看更多风格和提示词: https://catjourney.life/

[2]

Open AI 的 GPT-4o 发布和 ChatGPT 演示: https://openai.com/index/spring-update/

[3]

一条博客: https://blog.samaltman.com/gpt-4o

[4]

关于GPT-4o 模型更新: https://openai.com/index/hello-gpt-4o/

[5]

ChatGPT产品层面的更新: https://openai.com/index/gpt-4o-and-more-tools-to-chatgpt-free/

[6]

新的 ChatGPT 能力: https://openai.com/index/improvements-to-data-analysis-in-chatgpt/

[7]

模型侧的更新内容: https://blog.google/technology/developers/gemini-gemma-developer-updates-may-2024/

[8]

Veo 视频生成模型: https://x.com/GoogleDeepMind/status/1790435824598716704

[9]

Project Astra 多模态融合交互: https://x.com/GoogleDeepMind/status/1790433540548558853

[10]

产品侧的更新内容: https://blog.google/products/search/generative-ai-google-search-may-2024/

[11]

宣布正式离开 Open AI: https://x.com/ilyasut/status/1790517455628198322

[12]

Jan Leike 宣布离职: https://x.com/janleike/status/1791498174659715494

[13]

篇爆料文章: https://www.vox.com/future-perfect/2024/5/17/24158403/openai-resignations-ai-safety-ilya-sutskever-jan-leike-artificial-intelligence

[14]

发推文承认: https://x.com/sama/status/1791936857594581428

[15]

一篇博客: https://blog.samaltman.com/employee-equity

[16]

一个声明: https://x.com/gdb/status/1791869138132218351

[17]

Daniel Jeffries 认为: https://x.com/Dan_Jeffries1/status/1791752281982996590

[18]

安全问题是杞人忧天: https://x.com/ylecun/status/1791890883425570823

[19]

打赏稳定使用: https://x.com/op7418/status/1791339355338129539

[20]

直接展示答案: https://x.com/op7418/status/1791296013678109180

[21]

担任首席产品官: https://www.anthropic.com/news/mike-krieger-joins-anthropic

[22]

互动式 AI 播客 Chatter : https://beta.hume.ai/playground/voice

[23]

创建功能开放: https://x.com/midjourney/status/1791605135657107884

[24]

千亿参数模型 Yi-Large: https://platform.lingyiwanwu.com/

[25]

Unitree G1: https://x.com/op7418/status/1789984209026638182

[26]

与 Reddit 达成合作伙伴关系: https://openai.com/index/openai-and-reddit-partnership/

[27]

viva:首个可供使用的 Dit 架构视频生成工具: https://vivago.ai/video?type=1

[28]

Slax Reader:AI 阅读辅助浏览器插件: https://chromewebstore.google.com/detail/slax-reader/gdnhaajlomjkhahnmiijphnodkcfikfd

[29]

Wegic:即时设计团队推出的 AI 网页生成工具: https://wegic.ai/

[30]

TestSprite - 全自动端到端 AI 测试解决方案: https://www.testsprite.com/

[31]

User Evaluation:AI 帮助进行用户研究: https://www.userevaluation.com/ai-curated-interviews

[32]

FeaturesVote:利用用户反馈帮助增长: https://features.vote/

[33]

SEO 2.0 的必要性: https://x.com/gregisenberg/status/1791075214136103017

[34]

斯坦福CS25:语言模型微调和对齐: https://www.youtube.com/watch?v=AdLgPmcrXwQ

[35]

工具和感觉:如何塑造我们与工具的关系: https://nathanbeck.eu/essays/tooling-and-feeling/

[36]

John Schulman(Open AI 联合创始人)访谈: https://www.youtube.com/watch?v=Wo95ob_s_NI

[37]

十字路口的好莱坞:“每个人都在使用人工智能,但他们害怕承认这一点”: https://www.hollywoodreporter.com/movies/movie-news/hollywood-ai-artificial-intelligence-cannes-1235900202/

[38]

a16z:: https://a16z.com/how-generative-ai-is-remaking-ui-ux-design/

[39]

生成式AI如何重塑UI/用户体验设计: https://a16z.com/how-generative-ai-is-remaking-ui-ux-design/

[40]

研究:通过埃森哲量化GitHub Copilot对企业的影响: https://github.blog/2024-05-13-research-quantifying-github-copilots-impact-in-the-enterprise-with-accenture/

[41]

Chameleon: 混合模态早期融合基础模型: https://arxiv.org/abs/2405.09818

[42]

Gemini 1.5 Pro 技术报告: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[43]

超越缩放定律:使用联想记忆理解变压器性能: https://arxiv.org/abs/2405.08707

[44]

Idefics2,一个拥有80亿参数的高效基础VLM: https://arxiv.org/abs/2405.02246

[45]

腾讯混元DiT图像生成模型: https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

[46]

Anyline:强大的 Controlnet 线条预处理器: https://github.com/TheMistoAI/ComfyUI-Anyline

[47]

CAT3D:使用多视图扩散模型在3D中创建任何东西: https://arxiv.org/abs/2405.10314


Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

AI OpenAI GPT-4o ChatGPT Google I/O Gemini 搜索 Workspace Photos 超级对齐 AI 安全
相关文章