蓝点网 2024年11月04日
ChatGPT网络搜索功能使用微软必应搜索技术 爬虫名称为OAI-SearchBot
index_new5.html
../../../zaker_core/zaker_tpl_static/wap/tpl_guoji1.html

 

OpenAI 推出 ChatGPT Search 网络搜索功能,与谷歌搜索竞争。其数据收集一方面用微软必应,另一方面自行抓取,数据按特定算法排序。还介绍了多种爬虫,包括用于训练模型的 GPTBot 等,以及如何防止恶意爬虫冒充 OAI-Search 抓取数据。

🎈OpenAI 的 ChatGPT Search 功能本质上属搜索引擎,与谷歌搜索有竞争关系。数据收集上,搜索技术用微软必应,同时自己抓取内容,数据按算法排序后在 ChatGPT 中向用户返回结果。

🦾OpenAI 有 3 种不同爬虫。GPTBot 用于抓取数据训练人工智能模型,可屏蔽且不影响网站搜索流量;ChatGPT-User 在用户提问时检索数据标注来源链接,不抓取网页信息;OAI-Search 是 ChatGPT Search 功能的爬虫,抓取网络数据但不用于 AI 模型训练。

🛡️关于 OAI-Search 爬虫,其完整 UA 为 Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot,IP 地址为 20.42.10.176/28、172.203.190.128/28、51.8.102.0/24。为防恶意爬虫冒充,可对爬虫 IP 地址校验,不在上述 IP 段内的为假冒爬虫,可屏蔽其 IP。

早前 OpenAI 推出 ChatGPT Search 网络搜索功能,该功能本质上也属于搜索引擎因此与谷歌搜索有着直接竞争关系。

关于数据收集方面 OpenAI 采用的是两方面措施,一方面搜索技术使用微软必应,另一方面 OpenAI 也在自己抓取内容,所有数据被抓取后将按照特定算法进行排序以便在 ChatGPT 中向用户返回结果。

OpenAI 并未在博客中透露搜索技术使用的是微软必应,不过其工程师在 Reddit 论坛中确认确实使用了必应搜索,因此对站长来说如果想要通过 ChatGPT 获得搜索流量,也要针对必应搜索进行 SEO 优化。

爬虫方面目前 OpenAI 共有 3 种不同的爬虫:

GPTBot:用于从互联网上抓取数据训练 OpenAI 的人工智能模型,该爬虫可以屏蔽不会影响到网站的搜索流量;

ChatGPT-User:用于在用户提问时从网络上检索数据以标注来源链接,该爬虫本身不会抓取网页信息;

OAI-Search:这是 OpenAI 用于 ChatGPT Search 搜索功能的爬虫,专门用于抓取网络数据但不会将数据用于 AI 模型训练。

对网站来说如果不想自己的内容被抓取用于训练 AI 但又不想损失来自 ChatGPT Search (尽管目前可能极少),那就可以屏蔽 GPTBot 而允许 OAI-Search 爬虫。

关于 OAI-Search 爬虫的更多信息:

完整 UA:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0; +https://openai.com/searchbot

IP 地址:20.42.10.176/28、172.203.190.128/28、51.8.102.0/24

为防止有恶意爬虫冒充 OAI-Search 抓取数据,你可以对爬虫 IP 地址进行校验,如果爬虫 IP 地址不再上述 IP 段内均为假冒爬虫,可以直接将其 IP 屏蔽。

Fish AI Reader

Fish AI Reader

AI辅助创作,多种专业模板,深度分析,高质量内容生成。从观点提取到深度思考,FishAI为您提供全方位的创作支持。新版本引入自定义参数,让您的创作更加个性化和精准。

FishAI

FishAI

鱼阅,AI 时代的下一个智能信息助手,助你摆脱信息焦虑

联系邮箱 441953276@qq.com

相关标签

OpenAI ChatGPT Search 爬虫 数据收集
相关文章