HuggingFace 每日AI论文速递 02月15日
2025.02.14 | GPU扩展至300万tokens,文本编码器内存高效策略。
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本期AI速递精选了18篇前沿论文,涵盖了语言模型、多模态学习、3D视觉、具身智能等多个热门领域。研究方向包括扩展语言模型上下文长度、提升文本到图像生成效率、模型合并实现跨语言推理、大语言模型中的上下文归属、零样本模型搜索、无编码器架构在3D多模态模型中的潜力、基于大语言模型的角色扮演、高保真3D形状生成、视觉驱动具身智能体的评估、泰语推理模型、大语言模型的逻辑推理、多模态模型中的链式思维、长度可压缩的链式思维调优、增强链式思考的顺序问答推理引擎、改进多模态多语言嵌入、物理概念理解评估、灵巧操作通用神经跟踪控制以及3C产品数据集的无监督异常检测。这些研究代表了AI领域的最新进展和未来发展方向。

🚀InfiniteHiP:聚焦于扩展语言模型的上下文窗口,最高可达300万tokens,这对于处理长文本和复杂推理任务至关重要,有助于提升模型理解和生成长篇内容的能力。

🖼Skrr:致力于提升文本到图像生成的效率,通过跳过和重用文本编码器层,有效降低了内存占用,使得在资源有限的条件下进行高质量图像生成成为可能。

🎭CoSER:探索了基于大语言模型的角色扮演,旨在通过协同角色模拟,构建更真实的虚拟交互环境,为游戏、教育等领域提供更具沉浸感的体验。

🤖EmbodiedBench:提供了一个全面的基准测试,用于评估视觉驱动的具身智能体的多模态大语言模型,推动了具身智能体在复杂环境中的感知、决策和行动能力的发展。

本期的 18 篇论文如下:

[00:21] ? InfiniteHiP: Extending Language Model Context Up to 3 Million Tokens on a Single GPU(InfiniteHiP:在单个GPU上扩展语言模型上下文至300万 tokens)

[01:07] ? Skrr: Skip and Re-use Text Encoder Layers for Memory Efficient Text-to-Image Generation(Skrr:跳过并重用文本编码器层以实现内存高效文本到图像生成)

[01:49] ? An Open Recipe: Adapting Language-Specific LLMs to a Reasoning Model in One Day via Model Merging(一个开放的方案:通过模型合并在一日内将语言特定LLM适应为推理模型)

[02:31] ? SelfCite: Self-Supervised Alignment for Context Attribution in Large Language Models(SelfCite:大语言模型中上下文归属的自监督对齐方法)

[03:14] ? Can this Model Also Recognize Dogs? Zero-Shot Model Search from Weights(该模型也能识别狗吗?基于权重的零样本模型搜索)

[03:56] ? Exploring the Potential of Encoder-free Architectures in 3D LMMs(探索无编码器架构在三维大尺度多模态模型中的潜力)

[04:39] ? CoSER: Coordinating LLM-Based Persona Simulation of Established Roles(协同角色模拟:基于大语言模型的角色扮演语言代理)

[05:26] ? TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models(TripoSG:使用大规模校正流模型生成高保真3D形状)

[06:09] ? EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents(EmbodiedBench:全面评估视觉驱动具身智能体多模态大语言模型)

[07:00] ? Typhoon T1: An Open Thai Reasoning Model(台风T1:一个开放的泰语推理模型)

[07:54] ? Logical Reasoning in Large Language Models: A Survey(大型语言模型中的逻辑推理:综述)

[08:36] ? MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency(MME-CoT:评估大型多模态模型中链式思维推理质量、鲁棒性和效率)

[09:23] ? CoT-Valve: Length-Compressible Chain-of-Thought Tuning(长度可压缩的链式思维调优)

[10:11] ? SQuARE: Sequential Question Answering Reasoning Engine for Enhanced Chain-of-Thought in Large Language Models(SQuARE:增强大型语言模型链式思考的顺序问答推理引擎)

[10:52] ? mmE5: Improving Multimodal Multilingual Embeddings via High-quality Synthetic Data(mmE5:通过高质量合成数据改进多模态多语言嵌入)

[11:36] ? The Stochastic Parrot on LLM's Shoulder: A Summative Assessment of Physical Concept Understanding(随机鹦鹉在大语言模型肩上:物理概念理解的总结性评估)

[12:18] ? DexTrack: Towards Generalizable Neural Tracking Control for Dexterous Manipulation from Human References(DexTrack:面向人类参考的灵巧操作通用神经跟踪控制)

[13:00] ? 3CAD: A Large-Scale Real-World 3C Product Dataset for Unsupervised Anomaly(3CAD:一个大规模真实3C产品数据集用于无监督异常检测)

【关注我们】

您还可以在以下平台找到我们,获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

语言模型 多模态学习 具身智能 3D视觉 AI论文
相关文章