2025.05.19 | Qwen3提升LLMs性能；GuardReasoner-VL强化VLM安全。

本期的 15 篇论文如下：

00:24 🤖 Qwen3 Technical Report（Qwen3技术报告）

01:14 🛡 GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning（GuardReasoner-VL：通过强化推理保护视觉语言模型）

02:01 🖼 MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly（MMLongBench：有效且全面地评测长文本视觉语言模型）

02:40 🖼 Visual Planning: Let's Think Only with Images（视觉规划：让我们只用图像思考）

03:25 💡 Simple Semi-supervised Knowledge Distillation from Vision-Language Models via $\mathbf{\texttt{D}}$ual-$\mathbf{\texttt{H}}$ead $\mathbf{\texttt{O}}$ptimization（基于视觉-语言模型通过双头优化实现的简单半监督知识蒸馏）

04:09 🧠 Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity（群策群思：多个并发推理智能体在Token级别粒度上进行协作）

04:53 🧬 Mergenetic: a Simple Evolutionary Model Merging Library（Mergenetic：一个用于合并库的简单进化模型）

05:35 💡 MPS-Prover: Advancing Stepwise Theorem Proving by Multi-Perspective Search and Data Curation（MPS-Prover：通过多视角搜索和数据精选推进逐步定理证明）

06:14 🧮 Multi-Token Prediction Needs Registers（多Token预测需要寄存器）

06:48 🤔 Scaling Reasoning can Improve Factuality in Large Language Models（扩展推理能力提升大型语言模型的事实准确性）

07:25 🧪 MatTools: Benchmarking Large Language Models for Materials Science Tools（MatTools：用于材料科学工具的大语言模型基准测试）

08:04 🤔 Humans expect rationality and cooperation from LLM opponents in strategic games（人类期望在策略游戏中，大型语言模型对手是理性和合作的）

08:45 🤝 Learning Dense Hand Contact Estimation from Imbalanced Data（基于不平衡数据的稠密手部接触估计学习）

09:26 🩻 CheXGenBench: A Unified Benchmark For Fidelity, Privacy and Utility of Synthetic Chest Radiographs（CheXGenBench：合成胸部X光片的保真度、隐私性和效用性的统一基准）

10:11 🤝 From Trade-off to Synergy: A Versatile Symbiotic Watermarking Framework for Large Language Models（从权衡到协同：一种用于大型语言模型的多功能共生水印框架）

【关注我们】

您还可以在以下平台找到我们，获得播客内容以外更多信息

小红书: AI速递

Fish AI Reader

FishAI

联系邮箱 441953276@qq.com

相关标签