快科技资讯 2024年08月22日
防止内容被抓取训练AI:百度百科屏蔽谷歌/必应等搜索引擎
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

百度百科开始屏蔽谷歌、必应等多数搜索引擎,仅允许少数几个搜索引擎抓取其内容,此举意在防止未经授权抓取内容用于训练AI。

🥇百度百科的robots.txt文件显示,仅有百度搜索、搜狗搜索、中国搜索、YYSpider和宜搜搜索等少数搜索引擎被允许抓取内容,谷歌搜索、必应搜索等均被明确禁止。

🎯虽然360搜索未在封禁列表中单独列出,但百度百科禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也被屏蔽。

🤔百度百科的这种做法只是防君子不防小人,仍有很多爬虫会通过各种方式继续抓取内容用于训练AI。

快科技8月22日消息,据报道,近日百度百科开始屏蔽谷歌和必应等大多数搜索引擎,预计是为了阻止这些搜索引擎和其他爬虫,未经授权抓取百度百科的内容用于训练AI。

百度百科的robots.txt文件显示,目前仅有百度搜索、搜狗搜索、中国搜索(Chinaso)、YYSpider和宜搜搜索(EasouSpider)等少数几个搜索引擎被允许抓取其内容。

谷歌搜索、必应搜索、微软MSN、UC浏览器的Yisouspider以及其他一切搜索引擎爬虫均被明确禁止抓取百度百科的内容。

虽然360搜索没有在封禁列表中单独列出,但百度百科的策略是禁止一切非白名单爬虫抓取,所以360搜索和其他搜索引擎也都是被屏蔽的。

不过百度百科这种做法其实也只是防君子不防小人,肯定还有很多爬虫通过各种方式继续抓取内容然后拿去训练AI。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

百度百科 搜索引擎 内容抓取 AI训练
相关文章