掘金 人工智能 04月27日 18:22
图解LLM,入门大模型必看
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

本文通过9张图,概括性地介绍了大语言模型(LLM)的关键技术。内容涵盖了模型架构、微调方法、RAG技术、Agentic AI设计模式、文本切分策略以及Agentic AI系统的能力层级。从Transformer到MoE,从LoRA到Agentic RAG,再到KV Caching,文章旨在帮助读者快速了解LLM领域的前沿进展和核心概念。此外,还介绍了HyDE和Graph RAG等RAG技术的变体,以及Agentic AI的多种设计模式。

🧠 **Transformer vs. MoE**:Transformer使用固定的前馈网络,而Mixture of Experts (MoE) 通过Router动态选择部分专家网络,从而提升模型容量并减少计算量。

🛠️ **五种微调LLM的方法(LoRA系列)**:LoRA冻结原始参数,训练低秩矩阵;LoRA-FA在输入侧加入变换;VeRA使用更少参数,训练共享向量+偏置;Delta-LoRA每层引入多个LoRA分支;LoRA+在B矩阵上使用更大学习率。

🔄 **Traditional RAG vs. Agentic RAG**:传统RAG直接用query检索向量库,拼接上下文;Agentic RAG引入Agent,迭代重写问题、判断信息是否不足,流程更智能。

🔗 **Traditional RAG vs. Graph RAG**:传统RAG依赖向量库检索文档;Graph RAG用LLM生成知识图谱,结合图数据库进行图遍历,获取结构化上下文。

💡 **KV Caching in LLMs**:生成新token只需最后的hidden state,而该hidden state依赖最后一个query向量和之前的key/value向量。因此,缓存K/V向量可以避免重复计算,提升推理效率。

9张图解LLM

✅ 1. Transformer vs. Mixture of Experts


✅ 2. 5种微调大语言模型(LLM)的方法(LoRA系列)


✅ 3. Traditional RAG vs. Agentic RAG


✅ 4. 5种 Agentic AI 设计模式

    Reflection:先生成再反思输出,迭代优化;Tool Use:调用外部工具补充信息;ReAct:推理 + 动作交替进行;Planning:先拆解任务,逐步执行;Multi-agent:多个 Agent 协作解决复杂问题。

✅ 5. 5种 RAG 文本切分策略(Chunking)

    Fixed-size:定长切分,简单易实现;Semantic:按语义相似性拼接;Recursive:大段内容递归再切分;结构化切分:按文档结构如标题、章节切分;LLM生成切分:利用LLM智能划块。

✅ 6. 5级 Agentic AI 系统能力层级

    基础回复者:只用 LLM 输出结果;Router 模式:路由器 LLM 选择最佳模型;工具调用:LLM 能调用 API、数据库等外部资源;多智能体:多个子 Agent 协同;自主智能体:生成+验证器 Agent 形成闭环反馈优化。

✅ 7. Traditional RAG vs. HyDE


✅ 8. Traditional RAG vs. Graph RAG


✅ 9. KV Caching in LLMs

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

LLM Transformer RAG Agentic AI KV Caching
相关文章