维基百科附属的维基媒体被AI爬虫轰炸 超过65%的昂贵网络流量由AI爬虫消耗
维基百科附属的媒体资源共享项目维基媒体目前正在被 AI 爬虫轰炸,维基媒体项目托管着 1.44 亿张图片、视频和其他文件,这些宝贵的媒体文件被人工智能公司盯上用于训练 AI 模型。
这些 AI 爬虫数量非常多且抓取方式与正常人类访问不同,这消耗了维基媒体大量昂贵的服务器带宽,为了解决这些问题维基媒体正在采取行动,避免被 AI 爬虫持续性的消耗资源。
非人类访问导致带宽增加 50%:
维基媒体在博客中表示,自 2024 年 1 月以来用于下载多媒体内容的带宽增长 50%,这些增长并非来自人类读者,而是由自动化程序造成的,这些自动化程序也就是爬虫会抓取 Wikimedia Commons 图像目录中公开许可的图像,用来训练 AI 模型。
维基媒体的基础设施旨在承受高关注事件期间人类流量的突然激增,但抓取机器人产生的流量是前所未有的,并且带来了越来越大的风险和成本。
自 2024 年年初以来维基媒体的基本带宽需求稳步增长并且没有放缓的迹象,基线使用量的增加意味着当流量激增时,维基媒体将没有足够的空间来应对可能发生的异常事件:大量时间和资源用于应对非人类流量。
最昂贵的带宽中有 65% 被爬虫消耗:
维基媒体通过全球数据中心网络为用户提供加速访问,当某个内容被多次访问时维基百科会将其缓存到离用户最近的数据中心,如果某个内容是冷门内容访问次数不高则不会被缓存,当被人类访问时需要从核心数据中心拉取数据,同时将数据缓存在区域数据中心供该区域的其他用户访问。
通常情况下人类读者倾向于关注特定的主题,这些主题通常还是相似的,而 AI 爬虫则倾向于批量读取大量页面并且包含大量不是那么受欢迎的页面,这意味着机器人发出的请求更有可能被转发到核心数据中心并从核心数据中心里拉取数据。
核心数据中心的带宽是非常昂贵的,在进行系统迁移时维基媒体团队注意到消耗核心数据中心带宽的请求中有 65% 来自机器人,也就是人类用户的访问比例被挤占到只有 35%,爬虫带来的高流量甚至会影响人类用户的真实访问。
维基媒体在年度计划草案中提到 WE5 负责任的使用基础设施,维基媒体认为他们的内容是免费的但基础设施不是,现在必须采取行动重新建立健康的平衡,避免 AI 爬虫消耗维基媒体项目、贡献者和读者所需的时间和资源。
-
贵阳“挖眼虐猫”事件系AI编造
近日,“贵州文昌阁多只小猫被挖眼砍断四肢”等话题登上微博热搜,相关内容为:有网友发布视频称,在贵州贵阳文昌阁附近发生多起虐待或虐杀小猫事件,其中包括一只常被游客打卡拍照的网红猫。该话题发布后,迅速引起
-
谷歌在印尼市场推出Google AI Plus订阅 每月仅2.28美元还附带200GB存储空间
谷歌日前宣布在印度尼西亚推出订阅价格非常便宜的 Google AI Plus 套餐,该套餐旨在帮助更多用户积极利用人工智能服务创造并提升生产力,谷歌计划后续将该订阅方案推广到更多新兴市场。Google
-
我国科研人员研发出类脑脉冲大模型
记者今天(9月8日)从中国科学院自动化研究所获悉,近日,该研究所李国齐、徐波团队与相关单位合作,成功研发出类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该模型基于团队原创的“内生复
关注公众号:拾黑(shiheibook)了解更多
友情链接:
关注数据与安全,洞悉企业级服务市场:https://www.ijiandao.com/
安全、绿色软件下载就上极速下载站:https://www.yaorank.com/

随时掌握互联网精彩
- 《无主之地4》近日新情报层出不穷:您现在是否有意向购入?
- 微软修复89个安全漏洞
- 打字测试(TT) 3.0最新版本2022下载地址
- 密拍相机 v17.5.3最新版本2022下载地址
- 蔚来首款手机NIO Phone 李斌卖6499元!
- 河南中青旅 v2.0最新版本2022下载地址
- 山东德州发生M2.8级地震:部分地区有震感
- 快速通算 v1.0.9最新版本2022下载地址
- 腾讯START云游戏 0.11.0.3890最新版本2022下载地址
- 皇帝传(手游电脑版) 1.0.4680.123最新版本2022下载地址
- 多点自由购 v5.0.0最新版本2022下载地址
- 奔跑掌柜app v 1.2.15最新版本2022下载地址