本周大模型/AIGC领域的研究成果颇丰,包括清华团队推出的多智能体课堂模拟框架SimClass, 苹果公司关于多模态LLM对齐偏好的研究, 首个用于LM智能体的树搜索算法等. 这些研究涵盖了教育、多模态理解、智能体决策等多个方面, 为大模型应用提供了新的思路和方法.
🎓 **清华团队推出多智能体课堂模拟框架 SimClass**:该框架模拟了真实课堂环境, 允许LLM在多智能体协作框架内完成教育任务. 框架识别了具有代表性的班级角色, 引入了班级控制机制, 并通过用户实验验证了LLM有效模拟课堂互动模式的能力. 实验结果表明, LLM可以有效地模拟传统的课堂互动模式, 同时增强用户体验.
🍎 **苹果新研究:理解多模态 LLM 中的对齐偏好**:该研究分析了多模态LLM的对齐算法和偏好数据集, 并提出了一种新的偏好数据创建方法, 称为偏差驱动幻觉采样(BDHS). BDHS不需要额外的注释, 也无需外部模型, 可以在一系列基准中实现与以前发表的多模态模型对齐工作相媲美的性能.
🌳 **首个用于 LM 智能体的树搜索算法**:该算法为LM智能体提供了在交互式网络环境中明确执行探索和多步骤规划的能力. 它是一种在实际环境空间内运行的最佳优先树搜索形式, 能够有效提高LM智能体在网络任务中的成功率.
🧠 **上下文抽象学习 (ICAL): 实现多模态智能体的持续学习**:ICAL是一种从次优演示和人类反馈中建立多模态经验洞察记忆的方法. 它通过修正低效操作和注释认知抽象, 将轨迹抽象为一个通用程序, 从而提高检索增强型LLM和VLM代理的决策能力.
🎤 **FoleyCrafter:让无声的视频栩栩如生**:FoleyCrafter是一个新颖的框架, 利用预训练好的文本到音频模型生成与视频同步的高质量音效. 它包含两个关键组件: 语义适配器和时序控制器, 可以实现语义相关和时间同步的音效生成.
清华团队推出多智能体课堂模拟框架 SimClass上下文抽象学习(ICAL):实现多模态智能体的持续学习HuatuoGPT-Vision:增强 MLLM 的医学多模态能力RouteLLM:动态选择强、弱 LLM,提高成本效益Agentless:自动解决软件开发问题的无智能体方法谷歌推出风格感知拖放新方法 Magic Insert
或点击“阅读原文”,获取「2024 必读大模型论文」合集(包括日报、周报、月报,持续更新中~)。
1.清华团队推出多智能体课堂模拟框架 SimClass大语言模型(LLM)已被用于各种智能教育任务,从而辅助教学。虽然初步探索主要集中在由 LLM 驱动的独立智能体来完成特定的教育任务,但 LLM 在多智能体协作框架内模拟有真实用户参与的课堂的潜力仍有待开发。在这项工作中,来自清华大学的研究团队提出了有用户参与的多智能体课堂模拟框架——SimClass。他们识别了具有代表性的班级角色,并为自动课堂教学引入了一种新颖的班级控制机制,还在两门实际课程中进行了用户实验。利用教育分析中的弗兰德斯互动分析系统和探究社区理论框架,他们证明了 LLM 可以有效模拟传统的课堂互动模式,同时增强用户体验。他们还在 SimClass 中观察到了智能体之间出现的群体行为,智能体之间相互协作,在课堂上创造出生动的互动,从而改善用户的学习过程。https://arxiv.org/abs/2406.19226偏好对齐已成为提高大语言模型(LLM)性能的重要方法,但其对多模态大语言模型(MLLM)的影响仍未得到充分探索。与语言模型类似,用于图像理解任务的 MLLM 也会遇到幻觉等挑战。在 MLLMs 中,幻觉不仅可能通过陈述错误的事实而产生,也可能通过产生与图像内容不一致的反应而产生。MLLMs 对齐的一个主要目的是鼓励这些模型将响应与图像信息更紧密地结合起来。最近,有多项研究为 MLLMs 引入了偏好数据集,并研究了不同的对齐方法,包括直接偏好优化(DPO)和近端策略优化(PPO)。然而,由于数据集、基础模型类型和对齐方法的不同,目前仍不清楚哪些具体要素对这些工作中报告的改进效果更有效。在这项工作中,来自苹果公司的研究团队分析了 MLLM 中偏好对齐的各个方面。首先,他们将对齐算法分为离线(如 DPO)和在线(如 online-DPO)两类,并说明在某些情况下,结合离线和在线方法可以提高模型的性能。他们回顾了各种已发布的多模态偏好数据集,并讨论了其构建细节如何影响模型性能。基于这些见解,他们介绍了一种创建多模态偏好数据的新方法,称为偏差驱动幻觉采样(BDHS),这种方法既不需要额外的注释,也不需要外部模型,并表明它可以在一系列基准中实现与以前发表的多模态模型对齐工作相媲美的性能。https://arxiv.org/abs/2407.02477由语言模型(LMs)驱动的智能体在执行决策任务(如网络自动化)的能力方面已显示出良好的前景。然而,一个关键的局限性依然存在:主要为自然语言理解和生成而优化的 LM,在尝试解决现实计算机任务时,在多步推理、规划和使用环境反馈方面仍面临困难。为了解决这个问题,来自卡内基梅隆大学的研究团队为 LM 智能体提出了一种推理时间搜索算法,以便在交互式网络环境中明确执行探索和多步骤规划。该方法是一种在实际环境空间内运行的最佳优先树搜索形式,与大多数现有的最先进智能体互补。这是第一种用于 LM 智能体的树搜索算法,在现实的网络任务中显示出了有效性。在具有挑战性的 VisualWebArena 基准测试中,在 GPT-4o 智能体的基础上应用该搜索算法,与不使用搜索的相同基准相比,成功率相对提高了 39.7%。在 WebArena 上,搜索也比基线智能体提高了 28.0%,成功率达到 19.2%。该实验凸显了搜索对网络智能体的有效性,并证明了随着测试时间计算量的增加,性能也会随之提高。https://arxiv.org/abs/2407.01476https://jykoh.com/search-agents4.上下文抽象学习(ICAL):实现多模态智能体的持续学习大语言模型(LLMs)和视觉语言模型(VLMs)在进行决策和指令跟随的少样本上下文学习方面表现出色。然而,它们需要在上下文窗口中包含高质量的示例演示。那么,LLM 和 VLM 能否从通用的次优演示中生成自己的提示示例?在这项工作中,来自卡内基梅隆大学和 Google DeepMind 的研究团队提出了“上下文抽象学习”(In-Context Abstraction Learning,ICAL),这是一种从次优演示和人类反馈中建立多模态经验洞察记忆的方法。给定一个新领域中的嘈杂演示,VLM 通过修正低效操作和注释认知抽象(任务关系、对象状态变化、时间子目标和任务构想),将轨迹抽象为一个通用程序。当智能体尝试在类似环境中执行轨迹时,这些抽象概念会通过人类反馈进行交互式改进和调整。由此产生的抽象概念在提示中作为范例使用时,可显著提高检索增强型 LLM 和 VLM 代理的决策能力。在 TEACh 中,ICAL 智能体在基于对话的指令跟随、VisualWebArena 中的多模态网络智能体和 Ego4D 中的行动预测方面都达到了 SOTA。在 TEACh 中,目标条件成功率提高了 12.6%。在 VisualWebArena 中,任务成功率从 14.3% 提高到 22.7%。在 Ego4D 行动预测中,成功率比 GPT-4V 的少样本成功率要高,并且与监督模型相比仍具有竞争力。结果表明,对检索增强型上下文智能体进行微调后,效果会更好。https://arxiv.org/abs/2406.14596https://ical-learning.github.io/5.FoleyCrafter:让无声的视频栩栩如生来自上海 AI Lab 和香港中文大学的研究团队推出了 Neural Foley,其能够自动生成与视频同步的高质量音效,从而实现身临其境的视听体验。尽管应用范围广泛,但现有方法在同时合成高质量和视频同步(即语义相关和时间同步)的声音时遇到了限制。为了克服这些限制,他们提出了 FoleyCrafter,这是一个新颖的框架,利用预先训练好的文本到音频模型来确保生成高质量的音频。FoleyCrafter 包括两个关键组件:用于语义对齐的语义适配器和用于精确音视频同步的时序控制器。语义适配器利用并行交叉注意层,根据视频特征调节音频生成,产生与视觉内容语义相关的逼真音效。同时,时间控制器结合了起始检测器和基于时间戳的适配器,从而实现音频和视频的精确对齐。FoleyCrafter 的一个显著优势是与文本提示兼容,可以根据用户意图使用文本描述来实现可控和多样化的视频音频生成。 https://arxiv.org/abs/2407.01494https://foleycrafter.github.io/位置偏差(Position bias)问题,会导致语言模型(LM)根据内容在给定上下文中的位置确定其优先级。这种偏差往往会导致意想不到的模型故障,并损害各种应用中的性能、鲁棒性和可靠性。在这项工作中,来自伊利诺伊大学香槟分校、哈佛大学、得克萨斯农工大学的研究团队,将位置偏差归因于几乎所有 SOTA LM 所采用的两个组成部分:因果注意力(causal attention)和相对位置编码(relative positional encodings)。具体来说,他们发现因果注意力通常会导致模型偏向于远处的内容,而相对位置编码(如 RoPE)则偏向于近处的内容。此外,他们对物体检测的实证研究表明,位置偏差也存在于视觉语言模型(VLMs)中。因此,他们提出了一种无训练零样本的方法来消除不同输入片段顺序(比如,LM-as-a-judge 中的选项,QA 中的检索文档)造成的位置偏差。他们的方法将片段间的因果注意力改为双向注意力,并利用模型注意力值来决定片段的相对顺序,而不是使用输入提示中提供的顺序,因此可以在片段级别实现位置不变推断(PINE)。通过消除位置偏差,模型在广泛存在位置偏差的下游任务(如 LM-as-a-judge 和 retrieval-augmented QA)中获得了更好的性能和可靠性。值得注意的是,PINE 在调整 LM 以评估推理对时特别有用:它在大多数情况下都能持续提高 8 到 10 个百分点的性能,并使 Llama-3-70B-Instruct 在 RewardBench 推理子集中的表现甚至优于 GPT-4-0125-preview。https://arxiv.org/abs/2407.01100https://github.com/wzq016/PINE7.HuatuoGPT-Vision:增强 MLLM 的医学多模态能力GPT-4V 等多模态大语言模型(MLLM)的快速发展带来了重大进步。然而,这些模型在医疗多模态功能方面仍面临挑战,原因是医疗视觉文本数据的数量和质量受到限制,这源于数据隐私问题和高昂的注释成本。虽然以往的方法利用 PubMed 的大规模、去标识化医学图像-文本对来解决这些限制,但由于固有的数据噪声,这些方法仍有不足之处。为了解决这个问题,来自深圳市大数据研究院、香港中文大学和 National Health Data Institute 的研究团队从 PubMed 中提炼了医学图像-文本对,并使用 MLLMs(GPT-4V)以“非盲“的方式对数据进行去噪和重新格式化,最终创建了包含 130 万个医学 VQA 样本的 PubMedVision 数据集。实验结果表明,PubMedVision 可以显著增强当前 MLLM 的医学多模态能力,在包括 MMMU 健康与医学赛道在内的基准测试中表现出明显的改进;医学专家的人工检查和实证结果验证了与其他数据构建方法相比,该数据集具有更高的数据质量。此外,利用 PubMedVision,他们训练了一个 34B 的医学 MLLM HuatuoGPT-Vision,其在医学多模态场景中表现出了开源 MLLM 的优越性能。https://arxiv.org/abs/2406.19280https://github.com/FreedomIntelligence/HuatuoGPT-Vision8.RouteLLM:动态选择强、弱 LLM,提高成本效益大语言模型(LLM)在广泛的任务中表现出令人印象深刻的能力,然而在选择使用哪种模型时,往往需要在性能和成本之间做出权衡。功能更强大的模型虽然有效,但成本也更高,而功能较弱的模型则更具成本效益。为了解决这一难题,来自 UC 伯克利、Anyscale 和 Canva 的研究团队提出了几种高效的路由器模型,在推理过程中动态选择较强和较弱的 LLM,从而在优化成本和响应质量之间取得平衡。他们为这些路由器开发了一个训练框架,利用人类偏好数据和数据增强技术来提高性能。在广泛认可的基准上进行的评估表明,该方法大大降低了成本,在某些情况下成本降低了 2 倍多,而响应的质量却没有受到影响。有趣的是,这些路由器模型还表现出了显著的迁移学习能力,即使在测试时改变了强模型和弱模型,也能保持其性能。https://arxiv.org/abs/2406.186659.Agentless:自动解决软件开发问题的无智能体方法大语言模型(LLM)的最新进展大大推进了软件开发任务的自动化,包括代码合成、程序修复和测试生成。最近,研究人员和行业从业人员开发了各种自主 LLM 智能体,从而执行端到端的软件开发任务。这些智能体具备使用工具、运行命令、观察环境反馈和规划未来行动的能力。然而,这些基于智能体的方法非常复杂,而目前的 LLM 能力有限,这就提出了以下问题:我们真的需要使用复杂的自主软件智能体吗?为了回答这个问题,来自伊利诺伊大学香槟分校的研究团队提出了一种自动解决软件开发问题的无智能体方法——Agentless。与基于智能体的方法冗长复杂的设置相比,Agentless 采用了一个简单的两阶段过程:先定位,后修复,无需让 LLM 决定未来的行动,也无需使用复杂的工具。SWE-bench Lite 基准测试结果表明,与现有的所有开源软件智能体相比,Agentless 的性能最高(27.33%),成本最低(0.34 美元)。他们的工作凸显了自主软件开发中一种简单、可解释的技术目前被忽视的潜力。他们希望,Agentless 将有助于重设自主软件智能体的基线、起点和预期,并激励未来沿着这一重要方向开展工作。https://arxiv.org/abs/2407.0148910.谷歌推出风格感知拖放新方法 Magic Insert来自谷歌的研究团队提出了 Magic Insert,用于以物理上可信的方式将用户提供的图像中的对象拖放到不同风格的目标图像中,同时与目标图像的风格相匹配。这项工作将风格感知拖放问题形式化,并通过解决两个子问题提出了解决该问题的方法:风格感知个性化和在风格化图像中插入真实对象。在风格感知个性化方面,该方法首先使用 LoRA 和主题图像上的学习文本 token 来微调预训练的文本到图像扩散模型,然后将目标风格的 CLIP 表示法注入其中。在对象插入方面,他们使用 Bootstrapped Domain Adaption(自适应领域模型)来调整特定领域的逼真对象插入模型,从而适应不同艺术风格的领域。总体而言,该方法明显优于传统方法(如 inpainting)。最后,他们也推出了一个数据集 SubjectPlop,从而促进评估和该领域的未来进展。https://arxiv.org/abs/2407.02489https://magicinsert.github.io/