小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

小G助手1周前番茄助手教程17

为了训练大模型,恶意爬虫挤爆了各类科学数据库?

今年2月,收藏了近300万张不同物种图片的在线图像库DiscoverLife的日点击数量开始飙增至数百万次。【图1】

罪魁祸首很明显:恶意爬虫。

随着AI的崛起,此类恶意爬虫的数量激增,从网站上“抓取”大量内容,很多网站管理者怀疑:它们正在为训练聊天机器人和图像生成器等AI工具收集数据。小G助手认为,这种猜测有其背后的原因:以前大家觉得训练大模型需要庞大的计算能力,但现在发现,用少量资源也能开发出很厉害的AI工具。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

这个突破直接导致了大规模的数据抓取热潮,大量爬虫开始疯狂搜集模型所需的训练数据。其中,学术网站成了主要目标,因为它们的内容对AI开发者来说非常有价值。旧金山网络服务商Cloudflare的副总裁Will Allen指出,只要内容新颖或高度相关,AI开发者就会非常感兴趣。

开放获取资源联盟(COAR)的一份报告显示,在他们调查的66家机构中,超过90%的网站都曾被恶意爬虫抓取内容,其中大约三分之二因此导致服务中断。小G助手观察到学术网站的运营者正在寻找技术解决方案,但目前很难在限制恶意爬虫的同时不影响正常用户。

当前主流的反爬虫措施是在网站代码中集成协议文件,告诉爬虫哪些内容可以抓取。但恶意爬虫会直接无视这些规则。另一种方法是全面禁止这类爬虫行为,但这很容易误伤正常用户,比如,学者们常常通过图书馆的代理服务器访问期刊,导致多个请求来自同一个IP地址,这很容易被误判为爬虫。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

网站也可以针对性地封禁特定爬虫,但这需要先明辨爬虫“善恶”。目前,Cloudflare等机构正在建立爬虫分类清单,但也有专家指出,很多新型爬虫身份隐匿,很难分辨它们的意图。尽管现有反脉工具有多种,但小G助手了解到,由于不断进化,目前措施仍无法完全阻止非法抓取。“我们真正需要的是关于AI合理使用这类资源 的国际公约,否则长此以往,这些AI工具终将无优质数据可训练。”德国斯图加特州立国家历史博物馆 的动物学家Orr表示。

相关文章

小G助手最新版本:年轻人消费观大变革,支持国货、拒绝奢侈品、汽车品牌受挫

小G助手最新版本:年轻人消费观大变革,支持国货、拒绝奢侈品、汽车品牌受挫

细心的网友发现,如今的年轻人出现了3大消费变化,风向彻底变了! 90后是垮掉的一代,至于00后,除了整顿职场外,也没什么存在感了...... 这是很多老一辈人对于年轻人的看法,但实际上真是这样...

小G助手软件官网:警惕伪忙碌,四个信号教你识别无效努力与提升效率的方法

08【别让‘伪忙碌’榨干你:辨别无效努力的4个信号】 凌晨两点,电商公司会议室灯火通明。老板指着运营小刘大骂:“你天天加班到半夜,转化率反而跌了5%!”小刘红着眼眶翻看日报——原来她80%的时间都在...

小G助手软件:职场成功的15条人情世故,教你如何赢得同事与领导的好感

小G助手软件:职场成功的15条人情世故,教你如何赢得同事与领导的好感

职场里混得开的人,都懂这15条人情世故!老铁们直接看干货: 1\. 别让微信扫出尴尬 领导说“加个微信”,老实人直接扫码,聪明人补一句:“早该加您了,您二维码方便吗?”——主动示好比被动回应更拉好...

小G助手小号:印度市场大反转,塔塔以1.25亿收购纬创900亿投资工厂!

小G助手小号:印度市场大反转,塔塔以1.25亿收购纬创900亿投资工厂!

突发消息! 印度刚刚正式宣布了! 惊天大反转!印度市场又爆出一桩超级大新闻!你们听说了吗?纬创那900亿投资的印度工厂,竟然被塔塔以不可思议的1.25亿美元给“秒杀”了!你们听说了吗? 1. 这...

小G助手:东方甄选财报分析,裁员背后的新战略与未来发展规划揭秘

小G助手:东方甄选财报分析,裁员背后的新战略与未来发展规划揭秘

东方甄选最新财报出炉,裁员背后竟暗藏新战略?俞敏洪亲自揭秘企业未来规划! 在东方甄选最新财报发布后的电话会上,俞敏洪为我们揭开了公司的神秘面纱。尽管东方甄选正处于恢复期,2025财年上半年的总GMV...

小G助手怎么用:换脸技术的双刃剑,风险、监管与未来挑战

小G助手怎么用:换脸技术的双刃剑,风险、监管与未来挑战

这年头,谁还没点烦心事?这不,最近就有不少人因为“换脸”技术闹心了 “换脸”技术其实就是利用人工智能技术,将一张脸“嫁接”到另一张脸上,生成一个看起来很真实的人脸视频,这技术看似神奇,但实际上,...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。