快捷导航
Quick Navigation
联系我们
维基基金会:人工智能爬虫导致维基共享资本带
现实上,这代表了一种快速增加的趋向的一部门,上个月,软件工程师兼开源者Drew DeVault 埋怨人工智能爬虫忽略了旨正在抵御从动流量的“robots。txt”文件。而“务实工程师”Gergely Orosz上周也埋怨说,来自 Meta 等公司的人工智能爬虫添加了他本人项目标带宽需求。
然而,这更像是一场猫捉老鼠的逛戏,最终可能很多出书商躲正在登录和付费墙的后面——这对当今利用收集的每小我都是无害的。
总而言之,维基基金会的网坐靠得住性团队不得不破费大量时间和资本来爬虫法式,以避免对通俗用户形成干扰。而这一切都是正在考虑基金会晤对的云成本之前。
“虽然人类读者倾向于关心特定的(凡是是类似的)从题,但爬虫机械人倾向于‘批量阅读’大量页面并拜候不太受欢送的页面,”写道。“这意味着这些类型的请求更有可能被转发到焦点数据核心,这使得我们的资本耗损愈加高贵。”。
该公司正在周二的一篇博客文章中写道,其缘由并非源于渴肄业问的人类需求不竭增加,而是源于想要锻炼人工智能模子的从动化、数据饥渴的抓取东西。
帖子写道:“我们的根本设备是为了正在高关心度事务期间承受来自人类的俄然流量激增而成立的,但爬虫机械人发生的流量是史无前例的,而且带来了越来越大的风险和成本。”。
维基基金会是和十几个其他众包学问项目标办理组织,该基金会近日暗示,自 2024 年 1 月以来,从维基共享资本下载多的带宽耗损激增了 50%。
维基共享资本是一个可拜候的图像、视频和音频文件存储库,这些文件可正在许可下利用或属于公共范畴。暗示,最“高贵”的流量(即就所消费内容类型而言资本最稠密的流量)中,近三分之二(65%)来自机械人。然而,只要 35% 的全体页面浏览量来自这些机械人。按照的说法,形成这种差别的缘由是,经常拜候的内容正在其缓存中更接近用户,而其他不经常拜候的内容则存储正在更远的“焦点数据核心”,从那里供给内容的成本更高。这是机械人凡是会寻找的内容类型。
相关新闻