PaperAgent 23小时前
一篇LLM × DATA技术最新系统性综述
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

上交大、清华、阿里和上海AI Lab联合发布综述研究,深入探讨了大型语言模型(LLM)与数据管理(DATA)的协同作用。文章详述了数据管理如何支撑LLM的各个生命周期阶段,以及LLM在数据操作、分析和系统优化中的应用,为未来研究和实践提供了重要指导。

✨DATA4LLM:数据管理通过数据处理、存储和服务,支持LLM的预训练、微调等生命周期。例如,预训练阶段需要大规模、多样化的数据,而微调阶段则需要高质量、小规模的数据。

💡大模型数据处理:包括数据采集、去重、过滤、选择、混合和合成增强等步骤,确保LLM输入数据的质量和多样性。数据采集涉及从网络、扫描文档等多种来源获取数据,并使用工具进行内容提取。

💾大模型数据存储:利用TFRecord、分布式文件系统等技术,实现高效的数据存储和访问。关键在于优化数据格式、分布、组织、移动、容错,以及KV缓存等,以提升LLM训练和推理效率。

🔍LLM4DATA:LLM被应用于数据操作、数据分析和系统优化,增强数据管理任务。例如,LLM可以用于数据清洗、集成和发现,通过NL2SQL等技术简化结构化数据分析。

2025-06-02 14:54 河南

DATA4LLM:数据管理对LLM的支撑作用;LLM4DATA:LLM在数据管理中的应用

上交大&清华&阿里&上海AI Lab联合发表了一篇关于大型语言模型(LLM)与数据管理(DATA)相互作用的综述性研究,全面探讨了两者之间的双向关系,即数据管理对LLM的支撑作用(DATA4LLM)以及LLM在数据管理中的应用(LLM4DATA)。

详细分析了在LLM生命周期的不同阶段(如预训练、持续预训练、指令微调、强化学习、检索增强生成、代理工作流等)中,数据管理的关键技术和挑战,并提出了相应的解决方案。同时,还讨论了LLM在数据操作、数据分析和系统优化等数据管理任务中的应用进展,为未来的研究方向和实践应用提供了指导。

一、DATA4LLM技术

详细探讨了数据管理在支持大型语言模型(LLM)中的作用,即DATA4LLM。这一部分的核心内容聚焦于如何通过数据处理、存储和提供服务来满足LLM在不同生命周期阶段(如预训练、持续预训练、指令微调、强化学习、检索增强生成等)的需求。以下是该部分的详细总结:

1.1 LLM的不同阶段,数据的特征在LLM的不同阶段,数据的特征(如数据规模、数据域多样性和数据格式)存在显著差异。这些差异要求不同的数据管理策略。例如,在预训练阶段,LLM需要大规模、多样化的数据来获取广泛的语言理解能力;而在指令微调阶段,则需要更小规模但更高质量的数据来指导模型学习特定任务。

1.2 大模型数据处理数据处理是LLM训练的基础,涉及数据采集、去重、过滤、选择、混合和合成增强等多个步骤。这些步骤确保了输入LLM的数据具有高质量、多样性和及时性。

1.3 大模型数据存储数据存储技术确保LLM训练和推理过程中数据的高效存储和访问。关键技术和策略包括:

1.4 大模型数据服务数据服务技术确保数据在LLM训练和推理过程中被高效地提供和使用。关键技术和策略包括:

二、LLM4DATA技术

详细探讨了大型语言模型(LLM)在数据管理中的应用,即LLM4DATA。聚焦于如何利用LLM的技术能力来增强数据管理任务,包括数据操作、数据分析和系统优化。

2.1 LLM 用于数据操作LLM在数据操作中的应用主要集中在数据清洗、数据集成和数据发现。这些任务的目标是准备高质量的数据集,以支持非LLM应用,如机器学习模型的训练或数据分析任务。

数据集成:LLM可以用于实体匹配和模式匹配,以识别和对齐不同数据源中的相关实体和模式。

实体匹配:通过LLM生成的提示或多模型协作来匹配数据条目,确保它们指向相同的现实世界实体。

模式匹配:使用LLM生成的提示或检索增强生成(RAG)技术来识别不同数据库模式之间的对应关系。

数据发现:LLM可以用于数据剖析和数据注释,以生成描述性元数据和语义标签。

数据剖析:通过LLM生成数据集的描述性元数据,帮助用户更好地理解数据内容。

数据注释:使用LLM为数据元素分配语义或结构标签,如列类型或实体类型。

2.2 LLM 用于数据分析LLM在数据分析中的应用主要集中在结构化数据、半结构化数据和非结构化数据的分析。这些任务的目标是利用LLM的语义理解和推理能力,提供更高效和准确的数据分析解决方案。

半结构化数据分析

标记语言分析:利用LLM直接从标记语言(如XML、JSON)中提取和解释层次关系、属性和嵌套结构。

半结构化表分析:处理具有复杂结构组织的半结构化表,如合并单元格的表格。

非结构化数据分析

文档分析:通过OCR依赖和OCR自由方法,处理包含图像、表格、图表等复杂布局的文档。

程序分析:利用LLM作为漏洞检测工具,通过程序分析技术提高漏洞检测的准确性。

2.3 LLM用于数据系统优化LLM在数据系统优化中的应用主要集中在配置调优、查询优化和异常诊断。这些任务的目标是利用LLM的推理和生成能力,提高数据系统的性能和可靠性。

查询优化

提示工程:通过手动设计或自动生成提示,指导LLM进行SQL查询重写或计划选择。

检索增强:通过检索增强技术,为LLM提供查询优化知识,提高优化的准确性。

训练增强:通过额外的训练,使LLM更好地对齐查询优化目标,如查询性能提升。

异常诊断

提示工程:通过手动设计提示,指导LLM进行系统异常诊断。

检索增强:通过检索增强技术,为LLM提供历史诊断经验,提高诊断的准确性。

多智能体协作:通过多智能体协作机制,提高诊断的全面性和准确性。

https://github.com/weAIDB/awesome-data-llm

https://arxiv.org/pdf/2505.18458

A Survey of LLM × DATA

推荐阅读


    欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

    阅读原文

    跳转微信打开

    Fish AI Reader

    Fish AI Reader

    AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

    FishAI

    FishAI

    鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

    联系邮箱 441953276@qq.com

    相关标签

    LLM 数据管理 DATA4LLM LLM4DATA
    相关文章