明牌：OpenAI 发布带有“身份标识”的网络爬虫工具 GPTBot

2023-08-09 11:05未知服务器之家 IT/互联网

IT之家 8 月 8 日消息，OpenAI 昨日发布了旗下网络爬虫工具 GPTBot。官方宣称，该 GPTBot 工具能够在注重版权的基础上，使用透明的方式收集网页信息，来训练 OpenAI 旗下的各 AI 模型。 OpenAI 表示， GPTBot 使用专有网页 UA 表示其爬虫身

IT之家 8 月 8 日消息，OpenAI 昨日发布了旗下网络爬虫工具 GPTBot。官方宣称，该 GPTBot 工具能够在注重版权的基础上，使用透明的方式收集网页信息，来训练 OpenAI 旗下的各 AI 模型。

OpenAI 表示，GPTBot 使用专有网页 UA 表示其爬虫身份，完整 UA 字符串为（Mozilla / 5.0 AppleWebKit / 537.36 / KHTML, like Gecko; compatible; GPTBot / 1.0; + https://openai.com/ gptbot），任何网站管理者都可以自由允许或阻止该爬虫工具进行数据采集。

▲ 图源 OpenAI

明牌：OpenAI 发布带有“身份标识”的网络爬虫工具 GPTBot

▲ 图源 OpenAI

OpenAI 声称，若网站管理员不希望被爬虫搜集资料，管理员可以在网站服务器的 robots.txt 文件中完全禁止 GPTBot 抓取信息，或自行决定 GPTBot 抓取网站上的指定信息。

OpenAI 此前饱受业界对于“侵犯隐私问题”的指责，当下 OpenAI 推出这样一套 GPTBot 爬虫工具，可谓是其对于外界批判作出的相应回应，同时也能够推动行业建立 AI 训练用爬虫工具相关基准。IT之家此前报道，OpenAI 日前宣布注册 GPT-5 商标，该 GPTBot 爬虫工具也有望助力 GPT-5 的相关模型训练。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。