热门资讯

Cloudflare推出AI迷宫功能通过生成海量无关内容将爬虫放进迷宫里避免抓取网站

业界来源：蓝点网 2025-03-23 20:06:51

网络服务提供商 Cloudflare 此前已经推出人工智能爬虫识别和拦截程序，避免主要目的是抓取数据的 AI 爬虫通过高频次抓取浪费网站带宽和硬件资源，也可以避免因为 AI 爬虫高频次抓取影响网站的正常运营。

但很多 AI 爬虫都伪装成正常的客户端 UA 进行抓取，所以仅仅靠爬虫自己携带的 UA 难以判断是否是爬虫以及能否成功拦截，所以 Cloudflare 在此基础上推出名为 AI Labyrinth 的新功能。

这个新功能可以称作是 AI 迷宫，其主要功能是通过人工智能生成海量无关内容，在检测到存在异常的爬虫时，就将爬虫引导到这个人工智能生成的蜜罐中，这些内容与网站无关，借此消耗这些爬虫的资源。

统计数据显示在 2024 年秋季 Facebook 排名前 20 的帖子中有 4 篇是 AI 生成的，Medium 平台大约有 47% 的内容是 AI 生成的，而 Cloudflare 每天要收到 AI 爬虫发出的超过 500 亿个请求。

为了解决被 AI 爬虫浪费的服务器资源，Cloudflare 创建这个 AI 迷宫功能算是以毒攻毒，AI 爬虫主要想要抓取人类撰写的数据来训练 AI，Cloudflare 则只给这些爬虫投喂 AI 生成的内容。

AI 迷宫的工作原理是这样的：

Cloudflare 使用 Workers AI 和开源模型来创建海量有关不同主题的独特 HTML 页面，这些内容页面通过预生成管道提前生成并存储在 Cloudflare R2 存储库中。

但为了避免虚假内容污染 AI 并造成虚假内容在互联网上传播，Cloudflare 给 AI 爬虫投喂的数据也是真实并且与科学事实相关，只是与被抓取的网站不相关或者不是专有的。

防止影响 SEO 和真人访问：

Cloudflare 生成的页面通过技术手段进行隐藏，首先这些内容绝对不会被真人访问到，其次 Cloudflare 做好元数据用来禁止真正的搜索引擎爬虫抓取，因此也不会影响网站正常的 SEO。

当检测到异常的抓取时 Cloudflare 才会动用 AI 迷宫并将爬虫引导到迷宫中，已识别且被网站允许的 AI 爬虫以及搜索引擎的爬虫都可以正常抓取内容。

目前 AI 迷宫功能已经面向所有用户开放，无论是否付费都可以开启，具体路径是 Cloudflare 控制台、网站、安全性、自动程序、AI Labyrinth。

即将结束：腾讯云 2025 年春季活动，境外服务器仅需 99 元/年，续费同价、不限新老用户，部分服务器 CN2GIA 线路。

Cloudflare推出AI迷宫功能 通过生成海量无关内容将爬虫放进迷宫里避免抓取网站