IT之家 2024年08月21日
Meta 部署新网络爬虫机器人,为其 AI 模型收集大量数据
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Meta 悄悄发布新网络爬虫,用于收集数据支持其人工智能模型,该爬虫可抓取网络训练数据,Meta 虽未公开宣布,但新爬虫的存在表明其数据库可能不够用,需新数据改进功能,且多数网站未对其屏蔽。

🥳Meta 上月推出新网络爬虫机器人 Meta External Agent,它类似于 OpenAI 的 GPTBot,能够抓取网络上如新闻文章文本、在线讨论组对话等人工智能训练数据。

🤔Meta 虽未公开宣布新爬虫机器人,但使用档案历史记录显示其在 7 月底更新的面向开发者的公司网站中,一个标签显示了新爬虫的存在。

😮Meta 的 Llama 是大型语言模型之一,其初始版本使用了由 Common Crawl 等收集的大型数据集,新爬虫的出现表明 Meta 数据库可能不够用,需新高质量培训数据改进功能。

😯全球近 25%的最受欢迎网站屏蔽了 GPTBot,而只有 2%的网站屏蔽了 Meta 的新爬虫机器人。

北京时间 8 月 21 日,近日,Meta 悄悄地发布了一款新的网络爬虫,用于搜索互联网并收集大量数据,为其人工智能模型提供支持。

据三家追踪网络抓取器的公司称,Meta 新网络爬虫机器人 Meta External Agent 于上月推出,类似于 OpenAI 的 GPTBot,可以抓取网络上的人工智能训练数据,例如新闻文章中的文本或在线讨论组中的对话。

根据使用档案历史记录显示,Meta 确实在 7 月底更新了一个面向开发者的公司网站,其中一个标签显示了新爬虫的存在,但 Meta 至今还没有公开宣布其新爬虫机器人。

Meta 的 Llama 是最大的 llm 之一,虽然该公司没有透露最新版本的模型 Llama 3 使用的训练数据,但其初始版本的模型使用了由 Common Crawl 等其他来源收集的大型数据集。

今年早些时候,Meta 的联合创始人、首席执行官马克・扎克伯格 (Mark Zuckerberg) 在一次财报电话会议上曾吹嘘说,公司的社交平台已经积累了一套用于人工智能训练的数据集,甚至“超过了 Common Crawl”。

新爬虫的存在表明 Meta 庞大的数据库可能已经不够用了,因为该公司继续致力于更新 Llama 和扩展 Meta AI,通常需要新的和高质量的培训数据来不断改进功能。

来自 Dark Visitors 的数据显示,全球近 25% 的最受欢迎的网站现在已屏蔽了 GPTBot,但只有 2% 的网站屏蔽了 Meta 的新爬虫机器人。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Meta 网络爬虫 人工智能 训练数据
相关文章