Coding with Intelligence 2024年10月22日
When do Agentic loops add value over direct prompting?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文探讨了 LLM 在软件工程中的应用,并分析了 Agentless 方法在 SWE-bench Lite 基准测试中取得的显著成果。Agentless 方法简单高效,在性能和成本方面超越了现有的开源软件代理。同时,文章还介绍了其他值得关注的 LLM 研究成果,例如:Moshi 语言模型、OCI 光学 I/O 芯片、多模态掩码建模、语言模型合并工具、图结构 RAG、LLM 路由器等。此外,文章还探讨了 LLMs 在图像生成、视觉语言模型、语音增强、因果推理等领域的应用,以及加速长上下文 LLM 推理、专家特定微调、可控生成等技术突破。

😄 **Agentless 方法在 SWE-bench Lite 基准测试中表现出色**:Agentless 是一种简单高效的 LLM 软件工程代理方法,在 SWE-bench Lite 基准测试中取得了最高的性能 (27.33%) 和最低的成本 ($0.34),超越了所有现有的开源软件代理。这引发了人们对 agentic loops 在提升性能方面的作用的思考,以及在哪些情况下 agentic loops 可能会增加推理时间、推理成本和代码复杂性,而没有显著提高质量。

🤖 **Moshi 语言模型:GPT4o 的竞争对手**:Kyutai 推出了 Moshi,一款类似 GPT4o 的语音模型,演示版已发布,但尚未正式推出。

🚀 **Intel 推出 OCI 光学 I/O 芯片**:Intel 在 OFC2024 上展示了与 CPU 共封装的 OCI 光学 I/O 芯片,为 AI 扩展提供了新的可能性。

📚 **Meta 发布多令牌预测模型的权重**:Meta 发布了“通过多令牌预测实现更好、更快的 LLM”模型的权重,该模型能够提高 LLM 的效率和性能。

💡 **Gradually, then Suddenly: Upon the Threshold**:Ethan Mollick 的文章探讨了生成式 AI 的发展趋势,他认为生成式 AI 的进步可以被视为突破了离散的能力边界,一旦突破了这些边界,AI 就可以完全解决一类任务。

🌐 **GPT4All:基于 llama.cpp 的本地 LLM**:GPT4All 是一款基于 llama.cpp 的本地 LLM,集成了嵌入和本地 RAG 功能,为用户提供更便捷的 LLM 使用体验。

🧠 **CELLO:大型视觉语言模型的因果评估**:CELLO 是一种评估大型视觉语言模型因果推理能力的基准测试,旨在衡量模型在视觉领域中对因果关系的理解程度。

🧠 **DeepSeek:使用稀疏架构定制 LLM 的专家特定微调**:DeepSeek 提出了一种名为专家特定微调 (ESFT) 的方法,通过仅训练与任务相关的专家来定制 LLM,从而减少存储空间和训练时间,同时保持较高的性能。

🧠 **Ctrl-G:大型语言模型的可适应逻辑控制**:Ctrl-G 是一种可控生成方法,允许在生成过程中进行更精确的控制,从而使较小的模型能够达到与更大、更慢、更昂贵的模型相媲美的结果。

🧠 **Florence 2 VLM:运行在浏览器的 VLM**:Florence 2 是一款运行在浏览器的 VLM,为用户提供了更便捷的 VLM 使用体验。

🧠 **MInference 1.0:通过动态稀疏注意力加速长上下文 LLM 的预填充**:MInference 是一种加速长上下文 LLM 推理的方法,通过动态稀疏注意力机制,能够有效地减少预填充的推理延迟,同时保持准确性。

🧠 **xLSTM-UNet:一种有效的二维和三维医学图像分割主干网络**:xLSTM-UNet 是一种基于 Vision-LSTM (ViL) 的医学图像分割主干网络,在性能上优于 Mamba 网络。

🧠 **GraphRAG:图结构 RAG**:GraphRAG 是一种将结构化信息从非结构化数据中提取出来,并在 LLM 推理时使用知识图查询技术来填充上下文窗口,从而提高问答准确性的方法。

🧠 **mergekit:合并预训练语言模型的工具包**:mergekit 是一种用于合并预训练语言模型的工具包,可以帮助用户创建更强大的 LLM。

🧠 **MUMU:从文本到图像数据中引导多模态图像生成**:MUMU 是一种从文本到图像数据中引导多模态图像生成的方法,能够生成更逼真的图像。

🧠 **InternLM-XComposer-2.5:支持长上下文输入和输出的多功能大型视觉语言模型**:InternLM-XComposer-2.5 是一种支持长上下文输入和输出的多功能大型视觉语言模型,能够处理更复杂的任务。

🧠 **An Investigation of Incorporating Mamba for Speech Enhancement**:本文探讨了将 Mamba 应用于语音增强领域的可能性,表明 Mamba 在语音增强方面具有良好的潜力。

🧠 **State Space Models finding more applications in the audio domain**:本文指出,状态空间模型在音频领域找到了更多应用,例如语音增强等。

🧠 **Simple Diffusion Language Models by Sasha Rush**:Sasha Rush 发布了关于简单扩散语言模型的论文,该模型能够生成更逼真的文本。

🧠 **Meta just dropped weights for “Better & Faster Large Language Models via Multi-token Prediction”**:Meta 发布了“通过多令牌预测实现更好、更快的 LLM”模型的权重,该模型能够提高 LLM 的效率和性能。

🧠 **mergekit: a toolkit for merging pre-trained language models**:mergekit 是一种用于合并预训练语言模型的工具包,可以帮助用户创建更强大的 LLM。

🧠 **GraphRAG: graph structured RAG**:GraphRAG 是一种将结构化信息从非结构化数据中提取出来,并在 LLM 推理时使用知识图查询技术来填充上下文窗口,从而提高问答准确性的方法。

🧠 **Basic idea is to extract structured information from unstructured data and to use knowledge graph querying techniques at LLM inference time to populate the context-window with relevant information to answer the user's query.**:该方法旨在从非结构化数据中提取结构化信息,并在 LLM 推理时使用知识图查询技术来填充上下文窗口,从而提高问答准确性。

🧠 **Open source LLM router like Martian**:Martian 是一款开源 LLM 路由器,能够帮助用户更有效地使用 LLM。

🧠 **Apple releases 4M: Massively Multimodal Masked Modeling**:Apple 发布了 4M 模型,该模型是一种多模态掩码建模模型,能够处理更复杂的输入数据。

🧠 **Check out the video and HF demo! Developed in collaboration with EPFL.**:该模型与 EPFL 合作开发,并提供了视频和 Hugging Face 演示。

🧠 **Mélange: Cost Efficient Large Language Model Serving by Exploiting GPU Heterogeneity**:Mélange 是一种利用 GPU 异构性来降低 LLM 服务成本的方法,能够提高 LLM 的效率。

🧠 **xLSTM-UNet can be an Effective 2D & 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart**:xLSTM-UNet 是一种基于 Vision-LSTM (ViL) 的医学图像分割主干网络,在性能上优于 Mamba 网络。

🧠 **Interesting context for comparing xLSTM vs Mamba vs Transformers for vision sequence modeling tasks.**:该文章为比较 xLSTM、Mamba 和 Transformer 在视觉序列建模任务中的性能提供了有趣的背景信息。

🧠 **An Investigation of Incorporating Mamba for Speech Enhancement**:本文探讨了将 Mamba 应用于语音增强领域的可能性,表明 Mamba 在语音增强方面具有良好的潜力。

🧠 **State Space Models finding more applications in the audio domain**:本文指出,状态空间模型在音频领域找到了更多应用,例如语音增强等。

🧠 **CELLO: Causal Evaluation of Large Vision-Language Models**:CELLO 是一种评估大型视觉语言模型因果推理能力的基准测试,旨在衡量模型在视觉领域中对因果关系的理解程度。

🧠 **Yan LeCun has often argued that LLMs or VLMs don’t “really” understand the world and hence fail to apply even basic physics principles. Perhaps this benchmark will help us measure to what extent scaling, architecture innovations and data quality improvements help with causal reasoning in the visual domain.**:Yan LeCun 认为,LLM 或 VLM 并不真正理解世界,因此无法应用基本的物理原理。CELLO 基准测试可能有助于我们衡量模型在视觉领域中对因果关系的理解程度。

🧠 **MInference 1.0: Accelerating Pre-filling for Long-Context LLMs via Dynamic Sparse Attention**:MInference 是一种加速长上下文 LLM 推理的方法,通过动态稀疏注意力机制,能够有效地减少预填充的推理延迟,同时保持准确性。

🧠 **By evaluating on a wide range of downstream tasks, including InfiniteBench, RULER, PG-19, and Needle In A Haystack, and models including LLaMA-3-1M, Yi-200K, GLM-4-1M, Phi-3-128K, and Qwen2-128K, we demonstrate that MInference effectively reduces inference latency by up to 10x for pre-filling on an A100, while maintaining accuracy.**:MInference 在多个下游任务和模型上进行了评估,结果表明,MInference 在 A100 上有效地将预填充的推理延迟降低了 10 倍,同时保持了准确性。

🧠 **DeepSeek introduces Expert-Specialized Fine-Tuning (ESFT) for Customizing LLMs with Sparse Architectures!**:DeepSeek 提出了一种名为专家特定微调 (ESFT) 的方法,通过仅训练与任务相关的专家来定制 LLM,从而减少存储空间和训练时间,同时保持较高的性能。

🧠 **“Train only task-relevant experts for LLM customization, reduces storage by up to 90% and training time by up to 30%.**:ESFT 方法通过仅训练与任务相关的专家来定制 LLM,从而减少存储空间和训练时间,同时保持较高的性能。

🧠 **Customizes LLMs efficiently, nearing Full-Parameter Fine-Tuning (FFT) performance (50.2 vs 51.0), retains high performance in Math and Code tasks (39.8 vs 40.5) compared to FFT (31.5) and LoRA (28.5).**:ESFT 方法在定制 LLM 方面效率很高,接近全参数微调 (FFT) 的性能,在数学和代码任务上的性能也高于 FFT 和 LoRA。

🧠 **Ctrl-G: Adaptable Logical Control for Large Language Models**:Ctrl-G 是一种可控生成方法,允许在生成过程中进行更精确的控制,从而使较小的模型能够达到与更大、更慢、更昂贵的模型相媲美的结果。

🧠 **Tight control during generation allows smaller models to reach competitive results to larger, slower, more expensive models.**:Ctrl-G 允许在生成过程中进行更精确的控制,从而使较小的模型能够达到与更大、更慢、更昂贵的模型相媲美的结果。

🧠 **There's also a GitHub repo and UI demo its capabilities is in the works.**:Ctrl-G 还提供了一个 GitHub 仓库和 UI 演示,展示了其功能。

🧠 **Florence 2 VLM running in the browser**:Florence 2 是一款运行在浏览器的 VLM,为用户提供了更便捷的 VLM 使用体验。

🧠 **Very cool! Which edge cases could be built with this?**:Florence 2 非常酷,可以用来构建哪些边缘案例?

🧠 **📚 Resources**:该文章还提供了一些资源,例如 Meta 发布的“通过多令牌预测实现更好、更快的 LLM”模型的权重,以及 Sasha Rush 发布的关于简单扩散语言模型的论文。

🧠 **Meta just dropped weights for “Better & Faster Large Language Models via Multi-token Prediction”**:Meta 发布了“通过多令牌预测实现更好、更快的 LLM”模型的权重,该模型能够提高 LLM 的效率和性能。

🧠 **Simple Diffusion Language Models by Sasha Rush**:Sasha Rush 发布了关于简单扩散语言模型的论文,该模型能够生成更逼真的文本。

🧠 **Gradually, then Suddenly: Upon the Threshold**:Ethan Mollick 的文章探讨了生成式 AI 的发展趋势,他认为生成式 AI 的进步可以被视为突破了离散的能力边界,一旦突破了这些边界,AI 就可以完全解决一类任务。

🧠 **Very nice opinion peace by Ethan Mollick. He outlines, in my opinion, one of the most useful frameworks for thinking about progress in generative AI.**:Ethan Mollick 的文章探讨了生成式 AI 的发展趋势,他认为生成式 AI 的进步可以被视为突破了离散的能力边界,一旦突破了这些边界,AI 就可以完全解决一类任务。

🧠 **The progress in capabilities can be viewed as breaking through discrete capability boundaries that once crossed, delegate an entire subclass of tasks to be “completely solved” by AI.**:Ethan Mollick 的文章探讨了生成式 AI 的发展趋势,他认为生成式 AI 的进步可以被视为突破了离散的能力边界,一旦突破了这些边界,AI 就可以完全解决一类任务。

🧠 **GPT4All: local LLMs powered by llama.cpp + integrated embeddings/local RAG**:GPT4All 是一款基于 llama.cpp 的本地 LLM,集成了嵌入和本地 RAG 功能,为用户提供更便捷的 LLM 使用体验。

🧠 **Want more? Follow me on X! @ricklamers**:想要了解更多?在 X 上关注我!@ricklamers

? News

? Repos

? Papers

? Demos

? Resources


Want more? Follow me on X! @ricklamers

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM 软件工程 Agentless Moshi OCI 光学 I/O 芯片 多模态掩码建模 语言模型合并 图结构 RAG LLM 路由器 图像生成 视觉语言模型 语音增强 因果推理 加速长上下文 LLM 推理 专家特定微调 可控生成
相关文章