维基百科向AI公司推出免费数据集 只求不要再无止境抓取
此前维基百科关联站点维基媒体发布消息称由于被 AI 爬虫轰炸,导致大量昂贵的服务器资源被 AI 爬虫消耗,一方面维基媒体工程师疲于使用技术手段应对这些爬虫,另一方面也给维基媒体造成运营成本上的损失。
维基媒体是个托管图片、视频和其他文件的免费站点,目前该网站托管的文件数量高达 1.44 亿个,因此大量 AI 爬虫疯狂抓取维基媒体的内容用来整理为数据集训练人工智能模型。
除了维基媒体外,维基百科内容也被各种爬虫疯狂抓取,有鉴于技术手段已经无法应对这些 AI 爬虫,现在维基百科主动制作并发布针对训练 AI 模型且经过优化的数据集,这些数据集托管在谷歌旗下的数据科学社区平台 Kaggle 上,希望这些 AI 公司直接去谷歌下载数据集不要再对维基百科进行抓取。
本次发布的数据集在设计时就充分考虑机器学习的工作流程,让 AI 开发者能够轻松访问机器可读的文章数据,以进行建模、微调、基准测试、对齐和分析,其中的数据内容为已公开授权。
数据集时间截止至 2025 年 4 月 15 日,内容包括研究摘要、简短描述、图像连接、信息框数据和文章章节,但不包含参考文件或音频文件等非书面元素,首次发布的数据集包含英语和法语版本。
维基百科认为结构良好的 JSON 格式维基百科内容应该比直接抓取或解析维基百科原始内容更有吸引力,不过最终这能否解决维基百科面临的 AI 爬虫轰炸还有待观察。
-
淘宝答题免单引发AI“混战”
淘宝免单又又又来了! 5月6日凌晨,淘宝周年庆答题免单再次开启,作为淘宝510周年庆的主打活动之一,去年首次推出后,吸引上亿人次关注和参与。 据悉,今年免单活动玩法升级,猜中答案后即可从近12
-
黄仁勋:人工智能将提高全球GDP
黄仁勋:人工智能将提高全球GDP 助力解决劳动力短缺!英伟达CEO黄仁勋表示,人工智能(AI)会提高全球GDP,助力解决劳动力供应短缺问题,且所有人都将使用AI。
-
微信打击利用本地数据打造AI分身或数据分析应用 开发者需当心法律风险
目前在 GitHub 上有诸多开源项目可以获取并解密微信客户端本地数据,解密的数据再喂给人工智能就可以实现打造 AI 分身或数据分析等应用,但现在微信要开始打击这类应用了。微信安全中心日前发文《针对违
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/
- 谷歌终于为Gemini带来记忆功能可以继续之前的对话 不过仅限Advanced订阅用户
- Darktrace将收购Cado Security,以增强云取证能力
- 李子柒亮相汉服之夜:网友直呼李子柒穿绿色唐朝襦裙太绝了
- Elasticsearch开源仓库404,7万多star一夜清零
- 《恶意不息》Steam褒贬不一:优化太差 战斗爽
- “国产《三体》吊打网飞”登顶热搜 网友:剧情降智!
- 交通运输部:3月1日起快递不得擅自放智能快件箱、快递服务站
- 四川达古冰川首次发现荒漠猫:中国独有物种 与大熊猫齐名
- 放首音乐(抖音最火歌曲top100)
- G级网红祈锦钥“一秒变鬼”崩坏照曝光
- 大力神杯可以永久拥有吗
- 专家判断这块陨石来自46亿年前

随时掌握互联网精彩