PaperAgent 2024年12月12日
HtmlRAG开源,RAG系统联网搜索能力起飞~
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

HtmlRAG是一种新型的RAG系统知识处理方案,它使用HTML格式来表示外部知识,而非传统的纯文本格式。这种方法有效避免了因HTML转纯文本而导致的结构和语义信息丢失问题。为了应对HTML带来的长上下文挑战,HtmlRAG采用了无损HTML清理和基于两步块树的HTML修剪技术。实验证明,在多个问答数据集上,HtmlRAG的表现均优于或持平于现有的基于纯文本的后检索处理方法,展现出其在处理和利用网络信息方面的显著优势。

🌐HtmlRAG创新性地采用HTML作为RAG系统中外部知识的表示格式,与传统的纯文本方法相比,它能更好地保留原始网页的结构和语义信息,从而提高信息检索的准确性和效率。

🧹无损HTML清理技术在HtmlRAG中扮演关键角色,它通过移除完全不相关的内容并压缩冗余结构来优化HTML文档,此过程保留了所有原始的语义信息,使得清理后的HTML文档更适合于具有长上下文能力的LLMs。

🌳基于两步块树的HTML修剪技术是HtmlRAG的另一大亮点,第一步使用嵌入模型为HTML块计算分数,第二步则利用路径生成模型进一步精细化处理。这种两步走的方法确保了在保持信息完整性的同时,有效减少了不相关内容的干扰。

💡在六个不同的问答数据集上的实验结果强有力地证明了HtmlRAG的有效性,包括模糊问答、自然问答、多跳问答和长形式问答,HtmlRAG在所有这些数据集上的表现均优于或等于现有的基于纯文本的后检索处理方法。

💻HtmlRAG 的推出为 RAG 系统带来了新的可能性,其优良特性使其非常适合于处理日益增长的网络信息的复杂性和多样性,为未来的信息检索和问答系统开辟了新的研究方向。

2024-12-10 20:57 湖北

网络是RAG系统中使用的主要外部知识来源,许多商业系统,如ChatGPT和Perplexity,都使用网络搜索引擎作为他们的主要检索系统。传统的RAG系统将网页的HTML内容转换为纯文本后输入LLM,这会导致结构和语义信息的丢失

HTML转换为纯文本时的信息丢失

为此,提出了HtmlRAG,它使用HTML而不是纯文本作为RAG系统中外部知识的格式。为了应对HTML带来的长上下文,提出了无损HTML清理基于两步块树的HTML修剪(Two-Step Block-Tree-Based

HtmlRAG总体概述

块分数计算。块树通过分词器转换为令牌树,相应的HTML标签和令牌用相同颜色标记。令牌生成概率在右上角显示,虚线框中的令牌不需要推理。在块树的右上角,显示了块概率,概率可以从相应的令牌概率中推导出来

生成模型Prompt

Input:**HTML**: “{HTML}”**Question**: **{Question}**Your task is to identify the most relevant text pieceto the given question in the HTML document. This textpiece could either be a direct paraphrase to the fact,or a supporting evidence that can be used to infer thefact. The overall length of the text piece should bemore than 20 words and less than 300 words. You shouldprovide the path to the text piece in the HTML document.An example for the output is: <html1><body><div2><p>Somekey information...Output:<html1><body><div2><p>At the historic 2018 Royal Rumble,Shinsuke Nakamura won the Men’s Royal Rumble. . .

在六个不同的问答数据集上进行了实验,包括模糊问答、自然问答、多跳问答和长形式问答,HtmlRAG在所有数据集上的表现均优于或等于现有的基于纯文本的后检索处理方法:BM25、BGE、E5-Mistral、LongLLMLingua、JinaAI Reader

https://arxiv.org/pdf/2411.02959HtmlRAG: HTML is Better Than Plain Text for Modeling Retrieved Knowledge in RAG Systemshttps://github.com/plageon/HtmlRAG

推荐阅读


欢迎关注我的公众号“PaperAgent”,每天一篇大模型(LLM)文章来锻炼我们的思维,简单的例子,不简单的方法,提升自己。

跳转微信打开

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

HtmlRAG RAG系统 HTML 信息检索 深度学习
相关文章