掘金 人工智能 2024年07月07日
240701- 240705 早早聊 AI 资讯|苹果加入OpenAI董事会 ; AI要发展这个难题必须解决; LeCun:视频生成模型根本不懂物理 ...
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

菲尔兹奖得主 Timothy Gowers 对 GPT-4o 进行测试,发现 LLM 在解决经典过河难题和简单推理问题时表现不佳。例如,在农民带鸡过河的问题中,ChatGPT 的回答步骤荒谬,GPT-4o 在 1000 只鸡过河问题中的废话比率高达 125 倍。网友分析 LLM 失败的原因可能是提示方式不当,提供过多不必要信息,导致 token 预测困难。LeCun 等人认为自回归 LLM 发展前景堪忧,LLM 的未来走向取决于是否能找到类似思维链(CoT)这样的“大杀器”来解锁其性能。

🤔 **LLM在解决经典过河难题和简单推理问题时表现不佳**:菲尔兹奖得主 Timothy Gowers 对 GPT-4o 进行测试,发现 LLM 在解决经典过河难题和简单推理问题时表现不佳。例如,在农民带鸡过河的问题中,ChatGPT 的回答步骤荒谬,GPT-4o 在 1000 只鸡过河问题中的废话比率高达 125 倍。

🧐 **LLM 失败的原因可能是提示方式不当**:网友分析 LLM 失败的原因可能是提示方式不当,提供过多不必要信息,导致 token 预测困难。使用“通用名称”替换“实体名称”或重复问题能改善其表现。

🤯 **自回归 LLM 发展前景堪忧,LLM 的未来走向取决于是否能找到类似思维链(CoT)这样的“大杀器”来解锁其性能**:LeCun 等人认为自回归 LLM 发展前景堪忧,LLM 的未来走向取决于是否能找到类似思维链(CoT)这样的“大杀器”来解锁其性能。

💡 **目前 LLM 在推理和解决实际问题方面仍存在不足,需要进一步改进和探索**:目前 LLM 在推理和解决实际问题方面仍存在不足,需要进一步改进和探索。

🚀 **未来 LLM 的发展方向**:未来 LLM 的发展方向需要解决提示方式不当的问题,并探索类似思维链(CoT)这样的“大杀器”来解锁其性能。

👨‍💻 **LLM 发展面临的挑战**:LLM 发展面临的挑战包括解决提示方式不当的问题,以及探索新的方法来提高其推理和解决实际问题的能力。

🌟 **LLM 的未来展望**:未来 LLM 的发展前景充满希望,但需要克服现有的挑战,才能真正实现其潜力。

💡 **LLM 的应用前景**:LLM 的应用前景非常广阔,可以应用于各种领域,例如自然语言处理、机器翻译、语音识别、图像识别等。

🚀 **LLM 的未来发展趋势**:未来 LLM 的发展趋势将会更加注重推理能力、解决实际问题的能力以及与其他 AI 技术的融合。

👨‍💻 **LLM 的未来挑战**:未来 LLM 的挑战包括如何解决其幻觉问题、如何提高其可解释性和可控性、如何更好地与人类进行交互等。

🌟 **LLM 的未来展望**:未来 LLM 将会更加强大、更加智能,为人类社会带来更多益处。

💡 **LLM 的应用前景**:LLM 的应用前景非常广阔,可以应用于各种领域,例如自然语言处理、机器翻译、语音识别、图像识别等。

🚀 **LLM 的未来发展趋势**:未来 LLM 的发展趋势将会更加注重推理能力、解决实际问题的能力以及与其他 AI 技术的融合。

👨‍💻 **LLM 的未来挑战**:未来 LLM 的挑战包括如何解决其幻觉问题、如何提高其可解释性和可控性、如何更好地与人类进行交互等。

🌟 **LLM 的未来展望**:未来 LLM 将会更加强大、更加智能,为人类社会带来更多益处。

??原文链接??

阅读详细图文,可访问知识库


◇ 菲尔兹奖得主亲测GPT-4o,经典过河难题破解失败!最强Claude 3.5回答离谱,LeCun嘲讽 LLM ****? News

菲尔兹奖得主Timothy Gowers对GPT - 4o进行测试,发现LLM在解决经典过河难题和简单推理问题时表现不佳。在过河难题测试中,GPT - 4o和Claude 3.5等模型在一些情况下给出错误答案或忽视重要约束条件,如在农民带鸡过河的问题中,ChatGPT的回答步骤荒谬,GPT - 4o在1000只鸡过河问题中的废话比率高达125倍。网友分析LLM失败的原因可能是提示方式不当,提供过多不必要信息,导致token预测困难,而使用“通用名称”替换“实体名称”或重复问题能改善其表现。LeCun等人认为自回归LLM发展前景堪忧,LLM的未来走向取决于是否能找到类似思维链(CoT)这样的“大杀器”来解锁其性能。总之,目前LLM在推理和解决实际问题方面仍存在不足,需要进一步改进和探索。

◇ 从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定 ? News

OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经问世或未来将出现的文本转视频模型,是继大型语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在本博客中,我们将从头开始构建一个小规模的文本转视频模型。我们将输入一个文本提示,我们训练过的模型将根据该提示生成视频。本博客将涵盖从理解理论概念到编写整个架构并生成最终结果的所有内容。

◇ 什么是 智能体 ? News

什么是智能体(agent)?作者几乎每天都会被问到这个问题,在LangChain,他们构建工具来帮助开发者构建LLM应用程序,其中包括被称为“agents”的系统。作者对智能体的定义是:使用LLM来决定应用程序控制流的系统。但这个定义并不完美,人们对智能体的理解各不相同。一个系统的智能程度越高,LLM对系统行为的决定作用就越大。作者通过TED演讲的幻灯片介绍了LLM应用程序中不同程度的自主性。此外,作者认为“智能体”这一概念有助于指导开发过程中的决策,包括构建、运行、交互、评估和监控系统。系统的智能程度越高,就越需要协调框架、更难运行、更需要在运行时进行交互、需要更完善的评估框架和新型的监控框架。最后,作者认为随着应用程序的智能程度提高,需要新的工具和基础设施,这也是他们构建LangGraph和LangSmith的原因。

◇ 仲夏卡通:一个非常快乐的卡通模型,带有复古的感觉,融合了一些动漫元素和经典的北欧设计和颜色。 ? News

AI 营销平台Clay获6200万美元融资,估值5亿美元 ? News

Clay获得了由Meritech Capital领投,Sequoia、First Round、Box Group、Boldstart等参与的4600万美元B轮融资,此外还有之前未公布的由Sequoia领投的1350万美元A轮融资、First Round领投的250万美元种子轮融资以及Box Group的pre - seed轮融资。


◇ 解释 LLMs 的新视角: Transformer 中的知识回路假说 ? News

浙江大学张豫宁教授团队关于预训练 Transformer 中知识回路假说的研究。由于大语言模型存在幻觉等问题且知识存储机制不明,该研究旨在揭示相关机制。过往研究有缺陷和不足,此研究通过关注 Transformer 解码器结构,用消融实验识别知识回路。以 GPT 系列模型做实验,构建并评估知识回路,分析其信息。结果显示知识回路有效封装知识,揭示了知识编辑机制,还能解释语言模型的幻觉和上下文学习等行为。此研究贡献突出,未来或在多方面深入发展。

◇ MindStar:在推理时增强预训练 LLM 中的数学推理能力 ? News

华为诺亚方舟实验室的MindStar方法是一种基于树搜索的推理时间能力提升方法,能增强预训练LLMs的推理能力。背景是提升AI推理能力面临挑战,现有监督微调方法依赖大量训练和数据准备。MindStar引入过程监督奖励模型PRM评估LLM中间步骤,通过推理路径扩展收集下一步,再用PRM和树搜索算法选择扩展节点,实例化了Beam Search和Levin Tree Search。在GSM8K和MATH数据集上的评估表明,MindStar显著提升了开源模型的推理能力,可与闭源模型相媲美,同时减少了模型规模和计算成本。该方法将推理任务视为搜索问题,有效导航推理树空间,为高效推理增强技术的研究开辟了新道路。

AI 恐怖体操视频腿脚乱飞、大变活人,LeCun:视频 生成模型 根本不懂物理 ? News

一段AI生成的体操视频引发了关于AI是否理解物理规律的讨论。Luma AI的Dream Machine生成的体操视频中,人物出现腿脚乱飞、大变活人等离谱现象,LeCun认为视频生成模型不理解基本物理知识和人体结构,尽管技术会进步,但真正理解物理的学习系统不具有生成性。此前Sora生成的视频曾让人觉得它理解物理规律,但此次的视频让人质疑。网友对LeCun的观点有不同看法,有人认为模型生成离谱视频是因为数据缺乏或对人体结构理解不足,SD 3也曾因人体生成效果不好引发类似讨论,可能与数据审核有关。此外,Runway的Gen - 3也出现了类似问题。

◇ 豆包文科成绩超了一本线,为什么理科不行? ? News

豆包在大模型“高考大摸底”评测中,文科成绩优秀,在语文和历史等科目上甚至超越了GPT - 4o,但理科成绩相对较弱。通过与其他权威评测榜单对比,豆包的排名较为稳定。实际测试中,豆包在PC端对话的LLM链路下,数学答题有一定随机性,而在手机端“拍题答疑”的RAG链路下,表现较好。大模型文科强理科弱的原因包括其基本原理、理科语料稀缺以及推理计算能力等。豆包大模型通过大量使用和多场景实践打磨,性能进入国产第一梯队,在下载量和价格方面也有优势。虽然大模型还有进步空间,但字节的大模型和豆包值得期待。

◇ 杨立昆:加州SB1047法案起草者,是末日邪教大师 ? News

杨立昆对加州SB1047法案起草者的批评。他指出起草者Nirit Weiss - Blatt是末日邪教大师,该法案会让开源大模型的原作者承担很大风险,不利于技术创新,可能导致许多AI初创公司倒闭,且不少AI企业可能会搬离加州。该法案旨在规范先进人工智能模型的开发和使用,要求开发者进行安全评估、遵守规定并报告安全事故,若开源模型被修改导致性能变化,开发者将面临合规风险。杨立昆认为该法案会阻碍大模型生态系统的进步,Meta最多不做开源大模型,但很多初创公司会受影响。网友也对该法案提出质疑,认为其危言耸听,分散了对真正问题的注意力。Nirit在以色列获得博士学位,专注于科技内容报道,担任过多个相关职位。7月2日委员会将对该法案进行听证会,进一步审核和修改条款。著名AI科学家吴恩达曾表示该法案将扼杀开源大模型的创新。


AI 要发展,这个难题必须解决 ? News

AI发展面临高能耗难题:大型AI模型训练费电,科技巨头电力需求激增。训练模型耗电量大,未来人工智能行业电力消耗预计增加,AI芯片能耗及碳排放也不容忽视。此外,配套基础设施和电网承载力也制约着AI发展,推理过程能耗高且不同模型任务能耗差异大,数据中心冷却系统等配套设备耗能多,能效比差异大。为解决该问题,应合理管控,避免阻碍AI发展潜力。同时,许多国家将核电站作为过渡措施,产业界寻求新能源替代传统能源,如向核电转型,但核聚变发电技术尚需时间,扩大核电不应操之过急。此外,液冷散热方式可节省用电量,且各国正采取措施敦促数据中心节能减排,如欧盟、美国和中国的相关举措。总之,解决AI能耗问题需综合考虑多方面因素,以推动AI技术可持续发展。

◇ 多模态能力全球TOP3,来自中国从容 大模型 ****? News

云从科技的从容大模型在多模态能力方面表现优异,位列全球第三、国内首位。从容大模型在多个数据集上成绩突出,此前还多次刷新世界纪录。云从在AI大模型布局和落地方面也进展迅速,去年5月亮相后不断迭代模型,在多个行业领域实现应用落地,并与华为等合作推出相关产品和解决方案,西部智算中心具备强大算力。此外,文章认为AI大模型格局需要重新审视,因为算法差异性减弱,算力和数据的运用能力成为关键,而AI 1.0时代的公司在这些方面有优势,如云从科技具有深度学习研发能力、算力能力和数据壁垒,且落地场景和商业化能力经受过考验。总之,大模型带来的AI格局冲击和重写才刚开始,行业概念需要重新审视。

Meta 发布 Meta 3D Gen 文本生成3D模型。 ? News

Meta 推出了 Meta 3D Gen (3DGen)。3DGen 可在不到一分钟的时间内提供高保真度和高质量 3D 形状和纹理的 3D 资产创建。它支持基于物理的渲染 (PBR),这是在实际应用中重新点亮 3D 资产所必需的。此外,3DGen 还支持使用用户提供的额外文本输入对先前生成的(或艺术家创建的)3D 形状进行生成性重新纹理化。3DGen 集成了我们分别为文本到 3D 和文本到纹理生成开发的关键技术组件 Meta 3D AssetGen 和 Meta 3D TextureGen。通过结合它们的优势,3DGen 可以同时以三种方式表示 3D 对象:在视图空间、体积空间和 UV(或纹理)空间中。相对于单阶段模型,这两种技术的集成实现了 68% 的成功率。Meta 将 3DGen 与众多行业基线进行了比较,并表明它在复杂文本提示的提示保真度和视觉质量方面优于它们,同时速度明显更快。

◇ Mooncake:以 KVCache 为中心的 LLM 服务分解架构 ? News

Mooncake 是 Kimi 的服务平台,Kimi 是 Moonshot AI 提供的一项领先的 LLM 服务。它采用以 KVCache 为中心的分解式架构,将预填充和解码集群分开。它还利用 GPU 集群中未充分利用的 CPU、DRAM 和 SSD 资源来实现 KVCache 的分解式缓存。Mooncake 的核心是以 KVCache 为中心的调度程序,它在最大化整体有效吞吐量和满足与延迟相关的服务级别目标 (SLO) 之间取得平衡。与假设所有请求都将被处理的传统研究不同,Mooncake 面临着高度超载场景带来的挑战。为了缓解这些问题,我们开发了一种基于预测的早期拒绝策略。实验表明,Mooncake 在长上下文场景中表现出色。与基线方法相比,Mooncake 在某些模拟场景中可以实现高达 525% 的吞吐量提升,同时遵守 SLO。在实际工作负载下,Mooncake 的创新架构使 Kimi 能够处理 75% 以上的请求。

◇ MimicMotion:腾讯发布了一个根据图片生成跳舞视频的项目 ? News

近年来,生成式人工智能在图像生成领域取得了长足进步,催生出各种应用。然而,视频生成在可控性、视频长度、细节丰富度等各方面仍面临巨大挑战,阻碍了这项技术的应用和普及。本文提出了一个可控的视频生成框架MimicMotion,它可以模拟特定的动作引导生成任意长度的高质量视频。与以前的方法相比,本文的方法有几个亮点。首先,本文引入了置信度感知的姿势引导,确保高帧质量和时间平滑度。其次,本文引入了基于姿势置信度的区域损失放大,显著降低了图像失真。最后,为了生成长而流畅的视频,本文提出了一种渐进式潜在融合策略。通过这种方式,本文可以在可接受的资源消耗下生成任意长度的视频。经过大量的实验和用户研究,MimicMotion在各个方面都比以前的方法有了显著的改进。


◇ 细数RAG的12个痛点,英伟达高级架构师亲授解决方案 ? News

本文主要讨论了检索增强式生成(RAG)的12个痛点及解决方案。RAG能提升内容准确性、缓解幻觉问题等,但存在一些痛点,如内容缺失、错过排名靠前的文档、格式错误等。针对这些痛点,提出了相应的解决办法,包括清洁数据、更好的提词设计、超参数微调、重新排名、调整检索策略、对嵌入进行微调、使用prompt压缩和LongContextReorder、输出解析、使用高级检索策略、查询变换、并行化摄取工作流程、使用特定软件包处理结构化数据问答、从复杂PDF提取数据、设置后备模型以及保障LLM安全等。通过这些解决方案,可以提高RAG系统的性能和可靠性,使其更好地满足用户的需求。总的来说,解决这些痛点对于充分发挥RAG的优势至关重要。

◇ 参数少80%,效果仍超 LoRA !上交大&上海 AI Lab推出高效微调框架FLoRA ? News

在人工智能中,将预训练的基础模型用于各种下游任务已经很普遍。由于任务数量庞大且成本高昂,调整所有参数变得不可行。为了缓解这种情况,已经开发了几种微调技术,以更节省资源的方式更新预训练模型权重,例如通过低秩调整。然而,几乎所有这些方法都侧重于线性权重,而忽略了 4D 等高维参数空间的复杂性。或者,一些方法可以通过将原始空间的变化压缩为二维,然后采用低秩矩阵分解来适应高维参数空间。然而,这些方法破坏了所涉及的高维空间的结构完整性。为了解决不同基础模型之间维度空间的多样性并提供这些空间内变化的更精确表示,本文介绍了一种针对各种维度参数空间设计的广义参数高效微调框架 FLoRA。具体来说,FLoRA 利用 Tucker 分解,认为每个维参数空间的变化都基于一个低秩核心空间,该核心空间与原始空间保持一致的拓扑结构。然后通过该核心空间对变化进行建模,并结合相应的权重,以重构原始空间的变化。FLoRA 有效地保留了原始 N 维参数空间变化的结构完整性,同时通过低秩张量分解对其进行分解。在计算机视觉、自然语言处理和多模态任务上的大量实验验证了 FLoRA 的有效性。

◇ 书生·浦语发布InternLM 2.5 7B ? News

InternLM2.5系列发布,具有以下特点:出色的推理能力:数学推理性能一流,超越Llama3和Gemma2-9B等模型。1M上下文窗口:在1M长上下文中近乎完美地找到大海捞针,在LongBench等长上下文任务中表现领先。尝试使用LMDeploy进行1M上下文推理。更强大的工具使用:InternLM2.5支持从100多个网页收集信息,相应的实现将很快在Lagent中发布。InternLM2.5在指令跟踪、工具选择和反射方面具有更好的工具利用相关能力。

◇ Figure 宣布与宝马制造公司达成商业协议,将通用机器人引入汽车生产 ? News

Figure公司与宝马制造公司(BMW Manufacturing)达成商业协议的消息。Figure是一家位于加利福尼亚州的开发自主人形机器人的公司,此次协议旨在将通用机器人引入汽车生产环境。Figure的人形机器人能够实现制造过程中困难、不安全或乏味任务的自动化,使员工能够专注于无法自动化的技能和流程,提高生产效率和安全性。根据协议,宝马制造公司和Figure将采取基于里程碑的方法。在第一阶段,Figure将确定初始用例,以在汽车生产中应用Figure机器人。完成第一阶段后,Figure机器人将开始在宝马位于南卡罗来纳州斯帕坦堡的制造工厂分阶段部署。

此外,双方还将共同探索人工智能、机器人控制、制造虚拟化和机器人集成等先进技术主题。Figure公司致力于开发自主通用人形机器人,以解决不理想或不安全的工作,并支持全球供应链和制造业。宝马制造公司则致力于整合创新技术,推动未来发展,提高生产力,满足消费者需求。

◇ 想要一个通过观察你来学习家务的机器人吗?EquiBot 是一种✨通用且?数据高效的视觉运动策略学习方法,即使仅从 5 分钟的人类视频中,它也能适应物体形状、光线和场景构成的变化 ? News

建立有效的模仿学习方法,使机器人能够从有限的数据中学习,同时仍能在各种现实环境中进行推广,这是机器人学习中长期存在的问题。提出了 EquiBot,这是一种稳健、数据高效且可推广的机器人操作任务学习方法。我们的方法将 SIM(3)-等变神经网络架构与扩散模型相结合。这确保了我们学习到的策略不受尺度、旋转和平移变化的影响,增强了它们对未见过的环境的适用性,同时保留了基于扩散的策略学习的优势,例如多模态性和鲁棒性。我们在 6 个模拟任务套件中展示了我们提出的方法降低了数据要求并提高了对新场景的推广能力。在现实世界中,我们展示了 6 个移动操作任务的总共 10 个变体,我们的方法在每个任务中仅从 5 分钟的人类演示中学习后,就可以轻松地推广到新物体和场景。

◇ 苹果加入 OpenAI 董事会,与微软同等地位 ? News

彭博新闻周二报道称,作为上个月宣布的一项具有里程碑意义的 AI 协议的一部分,苹果 (AAPL.O) 将获得 OpenAI 董事会观察员职位。

◇ 哈佛、麻省推出面向医学多模态助手—PathChat ? News

哈佛、麻省等联合推出的面向医学领域的多模态AI助手PathChat。PathChat由视觉编码器、多模态投影和大语言模型组成,能理解分析医学图像并提供病理学指导。视觉编码器将图像转换为低维特征表示,多模态投影模块连接视觉与语言,大语言模型使用Meta开源的Llama 2家族的130亿参数变体。PathChat训练分预训练和指令微调阶段,预训练时多模态投影模块更新参数,指令微调时大语言模型和投影模块共同训练。在测试中,PathChat相比其他模型优势显著,准确率超出20%以上,且在多种应用场景有潜力,能分析病理图像、参与鉴别诊断,辅助医生精确诊断,尤其在复杂情况下作用明显。

◇ 港大马毅:现在 大模型 的「知识」,不等同于「智能」 ? News

马毅认为当前大模型的黑盒研究路线在视觉和自然语言结合方面遇到瓶颈,应追求正确机制的模型,如他提出的白盒理论,包括一致性、可控性、正确性和完备性。其团队的代表作CRATE可提高模型训练效率,面临的是时间和资源问题。马毅认为智能是获取和改进知识的能力,而GPT - 4有知识但无智能,像婴儿能自主学习才是智能的本质。他还指出目前大模型研究缺乏理论指导,白盒理论能推导出现有架构的原理,且其研究价值不受大模型耗能问题解决的影响,因为白盒理论旨在找出智能真正需要的计算,去除冗余。马毅认为应正确理解模型理论并简化统一,以帮助预测未来的改进。

◇ 揭秘:阶跃星辰万亿 MoE +多模态 大模型 矩阵亮相 ? News

阶跃星辰在世界人工智能大会上展示的大模型矩阵。其中,Step - 2万亿参数大模型通过自主研发和创新架构设计,在数理逻辑等能力上显著提升。Step - 1.5V多模态大模型基于Step - 2进行训练,感知能力大大提升,能进行各类高级推理。图像生成大模型Step - 1X具有更好的语义对齐和指令跟随能力,针对中国元素深度优化。阶跃星辰的模型矩阵体现了其对Scaling Law的坚持,以及从单模态到多模态融合再到具身智能的发展路线。他们认为“万亿参数”和“多模融合”缺一不可,正沿着这条路线发展,期待为国内大模型领域带来更多惊喜。阶跃星辰的展示让人们直观感受到大模型的魅力,其多模态模型在《AI + 大闹天宫》等应用中表现出色。

◇ 首个国产全功能 GPU 的万卡集群来了!“中国英伟达”出品 ? News

摩尔线程推出国内首个全功能GPU的万卡集群,该集群算力超万P,专为万亿参数级大模型训练设计。其具备超大算力、高有效计算效率、高稳定性、通用性和生态友好等特点。万卡集群炼成难度大,涉及超大规模组网互联等诸多问题。摩尔线程推出万卡集群是因大模型快速迭代,主流玩家多配备万卡集群,而千卡集群已无法满足需求。摩尔线程早在2022年就设定建集群的方向与策略,具有前瞻性,且从GPU功能看,是唯一能对标英伟达的国产GPU企业。市场对摩尔线程有一定认可度,其推动了国产GPU的发展。此次升级的万卡方案能否把握高端算力空窗期,有待市场检验。摩尔线程希望通过万卡集群解决国家和行业缺少大算力的问题,为各行各业数智化转型提供澎湃算力。

获取更多 AI 资讯,加群备注「 资讯 」...

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM GPT-4o 推理 过河难题 思维链
相关文章