OpenAI的爬虫被设计瘫痪，卡在“最无聊的内容农场”上无...

darthracer 发表于 2024-5-20 23:09

OpenAI的数据爬虫最近发现自己卡在一个独特的网站上，这个网站被称为“世界上最无聊的内容农场”，导致活动急剧增加。这个网站是由《网络入门》（Internet for Dummies）一书的作者约翰·莱文（John Levine）所创建，是一个实验性质的网站。

该网站包含数十亿个单页的网站，所有网站相互链接。每个页面看起来几乎相同，但每当有人点击连接，网站的内容就会稍微改变一下。莱文使用一个简单的程序创建了一个系统，每次点击都会从存储在数据库中的一组名字中产生一个新的页面名称。

莱文的网站设计很容易诱捕网页爬虫，这些爬虫是设计用来扫描网际网络的程序。例如，OpenAI的机器人就因此陷入这个循环其中，甚至于在一天内几乎每秒访问该网站150次。

莱文对此感到很有趣，并在一个面向网络开发者和IT专家的专业邮件列表上分享了这个问题，寻找OpenAI的联系窗口，要向他报告他们爬虫的行为。

这一事件凸显了一个更广泛的问题，即AI模型是如何通过无分别地从网络收集数据进行训练，有时会捕获无意义或无关的消息。这个问题足以引起莱文对未来AI版本可能使用的训练数据性质的评论。

他幽默地建议，如果有人对训练下一代AI模型的数据感到好奇，他们现在有了一个范例了。

当莱文发文后，机器人停止访问该网站，问题得到了解决。他的网站有些不寻常。与其说是拥有数十亿页面，不如说是数十亿个拥有单一页面的小型网站。

这种设置让许多网络爬虫感到困惑，不仅仅是OpenAI的爬虫。过去，来自Bing和Amazon的机器人也曾发生过类似问题。

莱文网站也有一些较轻松的目的。它放了两本莱文的书和一盒假鸡蛋的广告，莱文形容这些商品“蛮可爱的”。

尽管有商业方面考量，但他提到他书籍的销售量已不如从前，幽默地补充说，不像他那本畅销书早期问世的时候，现在每个人都知道如何使用网际网络了。

页: [1]

萌子岛's Archiver

OpenAI的爬虫被设计瘫痪，卡在“最无聊的内容农场”上无...