蓝点网 2024年08月21日
百度百科已屏蔽谷歌/必应等大多数搜索引擎 估计也是怕内容被拿去训练AI?
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百度百科为防内容被用于训练人工智能,屏蔽除部分外的多数搜索引擎,其robots.txt文件明确了可抓取与禁止抓取的对象。

🧐百度百科屏蔽了谷歌、必应、微软MSN等大多数搜索引擎,仅支持百度搜索、搜狗搜索等少数搜索引擎抓取内容。其robots.txt文件显示了详细的抓取规则。

🤔虽然百度百科采取了屏蔽措施,但这只是君子协定,仍有爬虫可能通过各种方式抓取内容用于训练AI,如360搜索曾未经授权抓取百度百科内容。

😮百度百科是根据维基百科模式开发,内容由用户撰写,而维基百科允许任何搜索引擎抓取并用于训练AI,相比之下,百度百科的做法显得格局较小。

这段时间蓝点网在关注知乎的动态,知乎为了避免内容被其他公司抓取拿去训练人工智能,不惜屏蔽除百度和搜狗以外的所有搜索引擎,甚至用户访问都乱码必须刷新页面才能正常查看内容。

不过也有网友注意到现在百度百科也开始采取类似措施,百度百科包含用户撰写的海量词条内容,这些内容用于人工智能训练自然是个不错的数据集。

所以现在百度百科也将谷歌和必应等大多数搜索引擎都屏蔽掉,应该也是为了阻止这些搜索引擎和其他爬虫未经授权抓取百度百科的内容用于训练人工智能。

百度百科的 robots.txt 文件显示,目前百度百科仅支持以下搜索引擎抓取内容 (类似白名单):

百度百科明确禁止抓取其内容的搜索引擎爬虫包括:

虽然 360 搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以 360 搜索和其他搜索例如 Yandex、Ecosia 等搜索也都是被屏蔽的。

当然这里的屏蔽只是君子协定,比如 360 刚刚推出 360 搜索和 360 百科时就未经百度授权抓取百度百科内容,被百度起诉后 360 辩称 robots.txt 是行业的约定俗成。

所以百度百科现在屏蔽这些搜索引擎其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练 AI。

话说回来,百度百科是根据维基百科的模式开发的,内容也都是用户撰写的,维基百科就允许任何搜索引擎抓取并且允许将其数据拿去训练 AI,不得不说某度还是格局小了。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

百度百科 搜索引擎 内容抓取 人工智能
相关文章