目 录CONTENT

文章目录

OpenAI 推出网络爬虫机器人 GPTBot

ByteNews
2023-08-08 / 0 评论 / 0 点赞 / 11,014 阅读 / 1,001 字 / 正在检测是否收录...
温馨提示:
本文最后更新于 2023-08-08,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。

OpenAI 推出网络爬虫机器人 GPTBot

OpenAI 推出了一种名为 GPTBot 的网络爬虫机器人,用于收集信息数据以改进未来的 AI 模型。据了解,GPTBot 将严格遵守任何付费墙的规则,不会抓取需要付费的信息,并且也不会收集能追踪到个人身份的数据。

不仅如此,OpenAI 也把是否要把自己的网站数据供 GPTBot 抓取的选择交到给网站所有者,他们可自行修改其 robots.txt 文件。或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。

这当然仍不足够,修改 robots.txt 是一种方式,但它可以更便利和更具透明度,也可进一步告知数据将被用于什么用途等等。

此前,OpenAI 抓取公开数据来训练专利 AI 模型的行为备受争议。Reddit 和 Twitter 等网站,已经采取措施打击 AI 公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。

OpenAI 旗下 GPT 模型的训练需要大量的网络数据,这可能涉及到数据隐私和版权等问题。为了解决这些问题,OpenAI 最近推出了一个新功能,让网站可以阻止其网络爬虫从其网站上抓取数据训练 GPT 模型。

据了解,网络爬虫是一种自动化的程序,可以在互联网上搜索和获取信息。OpenAI 的网络爬虫名为 GPTBot,其会以一定的频率访问各种网站,并将网页内容保存下来,用于训练 GPT 模型。

OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。OpenAI 还表示,“使用 GPTBot 用户代理(useragent)抓取的网页可能会被用于改进未来的模型,并且会过滤掉那些需要付费访问、已知收集个人身份信息(PII)、或者有违反我们政策的文本的来源。”对于不符合排除标准的来源,“允许 GPTBot 访问您的网站可以帮助 AI 模型变得更加准确,并提高它们的通用能力和安全性。”

但是,这并不会追溯性地从 ChatGPT 的训练数据中删除之前从网站上抓取的内容。

互联网为大型语言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的训练数据,为 AI 训练获取数据已经变得越来越有争议。一些网站,包括 Reddit 和 Twitter,已经采取措施打击 AI 公司免费使用其用户帖子的行为,而一些作者和其他创作者也因为涉嫌未经授权使用其作品而提起诉讼。

0

评论区