IT之家 04月02日 10:32
DeepSeek 新专利公布:减少数据采集时网络资源消耗
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

DeepSeek 关联公司公布了一项名为“一种广度数据采集的方法及其系统”的专利,旨在解决大语言模型训练所需高质量数据集的获取问题。该专利重点在于提高数据采集的效率和质量,通过优化链接发现、减少对网站的流量冲击、质量推断和择优下载等方式,减少低质量网页下载和重复下载,从而降低网络资源消耗。此外,专利还采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性,为人工智能领域的数据获取提供了新的技术思路。

🌐 专利的核心在于解决大语言模型训练所需高质量数据集的获取难题。随着人工智能技术的发展,特别是自然语言处理(NLP)领域的进步,大语言模型(LLMs)的训练变得至关重要,而高质量、多样化的数据集是 LLMs 成功的关键。

🔗 该专利提出了一种广度数据采集方法,旨在发现尽可能多的网页链接,并减少对网站的流量冲击。这有助于更全面地采集互联网数据,为 LLMs 提供更丰富的数据来源。

✅ 专利通过对已下载内容进行分析,对未下载链接进行质量推断,并择优下载分配额度,从而减少低质量网页的下载和重复下载。这种方法提高了数据质量和下载效率,并减少了数据采集过程中网络资源的消耗。

🔄 为了保证数据采集的稳定性和一致性,该专利采用单独的信息回灌队列,确保网页元信息库修改操作的原子性和稳定性。这有助于维护数据的完整性,为 LLMs 提供可靠的数据支持。

IT之家 4 月 2 日消息,IT之家从国家知识产权局中国专利公布公告网获悉,DeepSeek 关联公司杭州深度求索人工智能基础技术研究有限公司申请的“一种广度数据采集的方法及其系统”专利于 4 月 1 日公布。

专利摘要显示:

该发明的有益效果在于:发现尽可能多的网页链接,并减少对网站的流量冲击;对已经下载的内容进行分析,对未下载的链接进行质量推断,通过择优下载分配额度的方式,减少低质量网页下载和重复下载,提高数据质量及下载效率,减少在数据采集过程中网络资源的消耗;采用单独的信息回灌队列,保证网页元信息库修改操作的原子性和稳定性。

背景技术称:近年来,随着人工智能技术的进展,NLP 自然语言领域取得了巨大的进步。许多大语言模型 (Large Language Models,LLMs) 被训练应用于自然语言处理领域,用于研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

大语言模型的训练需要构建一个高质量、多样化的大语言模型数据集,这需要将网页数据采集并处理后得到大量高质量的文本信息作为模型的输入,用于大语言模型进行训练。

然而,现有的数据采集技术存在诸多问题,比如对复杂站点进行采集时,无法获取完整链接;容易过量下载,造成对方网站崩溃;对下载页面不进行内容质量分析和推断,造成重复下载或低质下载、影响数据采集的效率。

因此,在大量网页数据获取的过程中,如何快速、精准、安全、高效地采集互联网数据变得至关重要。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

DeepSeek 专利 数据采集 大语言模型 人工智能
相关文章