IT之家 2024年09月26日
一键屏蔽恶意 AI 模型爬虫机器人,Cloudflare 推出“防扒”网络工具
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

Cloudflare本周推出防AI爬虫工具,包括AI Audit和Block AI Scrapers and Crawlers,可助站长防止网站内容被用于训练AI的爬虫扒取,避免异常流量、高额费用及内容泄露等问题。

🎯Cloudflare推出的防AI爬虫工具利用多种技术辨别爬虫,用户可查看AI爬虫的行为,如爬虫类型、访问频率和扫描内容等,这有助于站长更好地了解爬虫的活动情况,采取相应措施保护网站内容。

🤔站长可根据需要放行‘善意的AI机器人’抓取信息,这类机器人主要寻找网站的robots.txt来获取信息,不会对网站产生异常流量及将网页数据用于全盘训练模型,在一定程度上平衡了信息获取与网站保护的需求。

🚫若站长不确定如何处理AI爬虫,可使用Block AI Scrapers and Crawlers功能一键屏蔽所有AI爬虫,为站长提供了简便的操作方式,有效防止网站受到不必要的爬虫干扰。

IT之家 9 月 26 日消息,网络服务商 Cloudflare 本周推出一系列防 AI 爬虫的工具,包括可查看 AI 爬虫具体活动的 AI Audit 和一键屏蔽所有 AI 爬虫的 Block AI Scrapers and Crawlers。站长们可以部署相关服务,从而防止自己网站的内容被用于训练 AI 的机器人爬虫扒取。

IT之家注:爬虫是一种自动化的程序,可以在互联网上搜索和获取信息,目前许多厂商使用相关爬虫扒取各大网站信息用于训练 AI 模型,相关爬虫容易导致被扒网站产生大量异常流量,为此站长需支付高昂的网络带宽费用,同时也容易导致网站上大量原创 / 隐私内容泄露

Cloudflare 推出的相关工具主要利用签名比对、启发式算法、机器学习和行为分析技术来辨别爬虫,用户可以查看 AI 爬虫的各种行为,包括爬虫类型、访问频率和扫描内容,站长还可以按照需要放行“善意的 AI 机器人”抓取信息(此类“善意的 AI 机器人”主要寻找网站的 robots.txt 来获取信息,通常不会对网站本身产生异常流量,也不会将网页所有数据直接用于全盘训练模型)。

如果不确定如何处理这些 AI 爬虫,站长们也可以使用 Block AI Scrapers and Crawlers 功能,一键屏蔽所有 AI 爬虫。

互联网为许多大语言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的训练数据,如今许多厂商为了刷自家 AI 模型分数,大肆通过网络爬虫“拿来式”地获取训练数据,从而让本应你情我愿的行为变得“污名化”,各大网络商直接推出此类禁用 AI 爬虫的服务也在意料之中。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

Cloudflare 防AI爬虫工具 网站安全 AI爬虫行为
相关文章