Cloudflare 推出“防扒”网络工具 一键屏蔽恶意AI模型爬虫机器人
网络服务商 Cloudflare 本周推出一系列防 AI 爬虫的工具,包括可查看 AI 爬虫具体活动的 AI Audit 和一键屏蔽所有 AI 爬虫的 Block AI Scrapers and Crawlers。站长们可以部署相关服务,从而防止自己网站的内容被用于训练 AI 的机器人爬虫扒取。
IT之家注:爬虫是一种自动化的程序,可以在互联网上搜索和获取信息,目前许多厂商使用相关爬虫扒取各大网站信息用于训练 AI 模型,相关爬虫容易导致被扒网站产生大量异常流量,为此站长需支付高昂的网络带宽费用,同时也容易导致网站上大量原创 / 隐私内容泄露。
Cloudflare 推出的相关工具主要利用签名比对、启发式算法、机器学习和行为分析技术来辨别爬虫,用户可以查看 AI 爬虫的各种行为,包括爬虫类型、访问频率和扫描内容,站长还可以按照需要放行“善意的 AI 机器人”抓取信息(此类“善意的 AI 机器人”主要寻找网站的 robots.txt 来获取信息,通常不会对网站本身产生异常流量,也不会将网页所有数据直接用于全盘训练模型)。
如果不确定如何处理这些 AI 爬虫,站长们也可以使用 Block AI Scrapers and Crawlers 功能,一键屏蔽所有 AI 爬虫。
互联网为许多大语言模型(如 OpenAI 的 GPT 模型和谷歌的 Bard)提供了大部分的训练数据,如今许多厂商为了刷自家 AI 模型分数,大肆通过网络爬虫“拿来式”地获取训练数据,从而让本应你情我愿的行为变得“污名化”,各大网络商直接推出此类禁用 AI 爬虫的服务也在意料之中。
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
-
Cloudflare正在与谷歌谈判 要求谷歌允许网站屏蔽AI概览爬虫但不影响SEO
目前谷歌搜索已经在大多数市场推出 AI 概览功能,当用户输入内容进行检索时率先出现的是由 Google Gemini 人工智能查询 / 汇总 / 总结的 AI 概览,用户无需点击详细的网站即可看到回答
-
停用Cloudflare!疑似将网站解析到.1的CDN IP地址导致大量网站无法访问
从昨晚开始不少网友开始讨论使用 Cloudflare 的网站出现访问故障的情况,经过测试出现故障的网站被解析到 Cloudflare 尾号为.1 的 CDN 节点 (IP),这些.1 的 IP 地址都
-
Cloudflare测试AI付费抓取功能 AI公司必须付钱才能抓取网站内容(附网站开通方法)
此前网络服务提供商 Cloudflare 就透露将针对当前人工智能公司爬虫未经授权对网站的抓取行为提供新功能,允许网站 / 内容出版社向人工智能公司收费来换取内容抓取授权。目前这个功能开始面向少数网站
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

随时掌握互联网精彩