PaperAgent 2024年11月19日
o1的风又吹到多模态,直接吹翻了GPT-4o-mini
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

LLaVA-o1是一个新型的视觉语言模型(VLM),它通过将推理过程分解为总结、视觉解释、逻辑推理和结论生成等多个阶段,实现了更强大的自主多阶段推理能力。与传统的思维链提示方法不同,LLaVA-o1独立地进行每个阶段的推理,并在性能上超越了一些更大的闭源模型,例如Gemini-1.5-pro和GPT-4o-mini。该模型通过结构化推理框架、专门的数据集和训练方法,以及推理时的阶段性束搜索策略,显著提升了复杂任务中的推理能力和扩展性。LLaVA-o1的阶段性推理过程和结构化输出,为视觉语言模型的推理能力提供了新的思路,也为未来模型的开发提供了宝贵的经验。

🤔 **结构化推理框架:**LLaVA-o1将推理过程分解为总结、图像描述、推理和结论四个阶段,每个阶段都有特定的任务和输出,使得推理过程更加清晰和可控,这与传统的思维链提示方法不同,LLaVA-o1独立地进行每个阶段的推理。

🖼️ **专门数据集LLaVA-o1-100k:**为了训练LLaVA-o1,研究人员构建了一个新的数据集LLaVA-o1-100k,该数据集整合了多个VQA数据集,并使用GPT-4o生成详细的推理过程,包括总结、图像描述、推理和结论,为模型提供了丰富的训练数据。

🔎 **阶段性束搜索策略:**LLaVA-o1在推理时采用阶段性束搜索方法,在每个推理阶段生成多个候选结果,并选择最佳结果继续生成过程,有效地提升了模型在复杂任务中的推理能力和扩展性,这种方法在提高推理时扩展方面表现出显著的优势。

🚀 **性能超越大型模型:**LLaVA-o1在多模态推理基准测试中实现了8.9%的性能提升,并且超越了一些更大甚至是闭源模型,例如Gemini-1.5-pro、GPT-4o-mini和Llama-3.2-90B-Vision-Instruct,证明了其在复杂视觉语言任务中的优越性能。

🏷️ **结构化标签的重要性:**LLaVA-o1中的结构化标签(<SUMMARY>等)对于模型性能至关重要,去除这些标签后,模型性能显著下降,表明这些标签有助于推理过程并提高了模型性能。

2024-11-19 13:15 湖北

开源LLaVA-o1一个设计用于进行自主多阶段推理的新型VLM。与思维链提示不同,LLaVA-o1独立地参与到总结、视觉解释、逻辑推理和结论生成的顺序阶段。

LLaVA-o1超过了一些更大甚至是闭源模型的性能,例如Gemini-1.5-proGPT-4o-miniLlama-3.2-90B-Vision-Instruct

基础模型与LLaVA-o1的比较。基础模型Llama-3.2-11B-Vision-Instruct在推理过程中有明显的缺陷,整个推理过程中出现了几个错误。相比之下,LLaVA-o1首先概述问题,从图像中解释相关信息然后进行逐步推理过程,并最终得出一个有充分支持的结论

LLaVA-o1如何炼成

LLaVA-o1模型的结构化推理框架专门的数据集和训练方法,以及推理时的阶段性束搜索策略,来提高模型在复杂任务中的推理能力和扩展性。

    结构化推理阶段

数据准备和模型训练

    有效的推理时扩展使用阶段性束搜索

推理方法的示意图最佳选择法(Best-of-N search)生成N个完整的响应,并从中选择最好的一个;句子级束搜索(Sentence-level Beam Search)为每个句子生成多个候选项并选择最好的一个。相比之下,LLaVA-o1的阶段性束搜索(Stage-level Beam Search)为每个推理阶段(例如,总结、标题、推理和结论)生成候选项,并在每个阶段选择最佳选项。最佳选择法在粗略层面上操作,而句子级束搜索过于细致,而LLaVA-o1的方法实现了最佳平衡并取得了最佳性能。

有无阶段性束搜索的LLaVA-o1性能比较LLaVA-o1的阶段性束搜索在模型推理过程中有效地选择了更好的推理。

实验数据

https://arxiv.org/pdf/2411.10440LLaVA-o1: Let Vision Language Models Reason Step-by-Stephttps://github.com/PKU-YuanGroup/LLaVA-o1

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLaVA-o1 视觉语言模型 多阶段推理 结构化推理 阶段性束搜索
相关文章