小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

小G助手2个月前番茄助手教程48

为了训练大模型,恶意爬虫挤爆了各类科学数据库?

今年2月,收藏了近300万张不同物种图片的在线图像库DiscoverLife的日点击数量开始飙增至数百万次。【图1】

罪魁祸首很明显:恶意爬虫。

随着AI的崛起,此类恶意爬虫的数量激增,从网站上“抓取”大量内容,很多网站管理者怀疑:它们正在为训练聊天机器人和图像生成器等AI工具收集数据。小G助手认为,这种猜测有其背后的原因:以前大家觉得训练大模型需要庞大的计算能力,但现在发现,用少量资源也能开发出很厉害的AI工具。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

这个突破直接导致了大规模的数据抓取热潮,大量爬虫开始疯狂搜集模型所需的训练数据。其中,学术网站成了主要目标,因为它们的内容对AI开发者来说非常有价值。旧金山网络服务商Cloudflare的副总裁Will Allen指出,只要内容新颖或高度相关,AI开发者就会非常感兴趣。

开放获取资源联盟(COAR)的一份报告显示,在他们调查的66家机构中,超过90%的网站都曾被恶意爬虫抓取内容,其中大约三分之二因此导致服务中断。小G助手观察到学术网站的运营者正在寻找技术解决方案,但目前很难在限制恶意爬虫的同时不影响正常用户。

当前主流的反爬虫措施是在网站代码中集成协议文件,告诉爬虫哪些内容可以抓取。但恶意爬虫会直接无视这些规则。另一种方法是全面禁止这类爬虫行为,但这很容易误伤正常用户,比如,学者们常常通过图书馆的代理服务器访问期刊,导致多个请求来自同一个IP地址,这很容易被误判为爬虫。

小G助手:恶意爬虫对科学数据库的影响,AI训练数据争夺战加剧

网站也可以针对性地封禁特定爬虫,但这需要先明辨爬虫“善恶”。目前,Cloudflare等机构正在建立爬虫分类清单,但也有专家指出,很多新型爬虫身份隐匿,很难分辨它们的意图。尽管现有反脉工具有多种,但小G助手了解到,由于不断进化,目前措施仍无法完全阻止非法抓取。“我们真正需要的是关于AI合理使用这类资源 的国际公约,否则长此以往,这些AI工具终将无优质数据可训练。”德国斯图加特州立国家历史博物馆 的动物学家Orr表示。

相关文章

熊猫助手:李彦宏与雷军的领导风格对比,团队执行力与成功的关键差异

熊猫助手:李彦宏与雷军的领导风格对比,团队执行力与成功的关键差异

李彦宏的个人投资眼光及对市场的预判是不错的,但书生气质太浓,领导力方面缺少霸气,下属对他缺乏敬畏,导致整个团队执行力不彻底,需要亲力亲为,雷军书生气也重,但是雷军可以下一线,接地气。熊猫助手认为,雷军...

小G助手拼多多:无人机防御技术全解,物理拦截、电子干扰与监测手段解析

无人机防御的途径有哪些? 别去搜了,这里是最全的。无人机防御主要包括: 无人机物理拦截、无人机电子干扰技术、导航诱骗、检测与侦测技术。下面我们逐一来看。 1. 物理拦截手段 防空导弹和自行...

51助手:李佳琦直播劝退女生医美,揭露行业风险与后悔真相

李佳琦直播中竟然劝退普通女生做医美?他说,做了多数会后悔!这究竟是怎么一回事? 近日,知名美妆博主李佳琦在直播中向广大粉丝发出了诚恳的建议,他直言不讳地表示,普通女生在没有必要的情况下,不要轻易尝试...

小G助手小号:小店老板吐槽外卖平台剥削,坚守本分不被利用

小G助手小号:小店老板吐槽外卖平台剥削,坚守本分不被利用

哈喽,我是跨年小店海鲜烧烤的老板,我是李涛。最近接到许多陌生电话,有美团、抖音、饿了么等平台的商家,还有工作平台给我打电话,内容要么是说让我涨流量,要么是说店的位置,要么就是其他乱七八糟的东西。小G助...

多多出评工具:提升消费水平的关键,稳定收入与多元经济发展策略

多多出评工具:提升消费水平的关键,稳定收入与多元经济发展策略

工资低所以消费上不去!2023年,上海财经大学校长刘元春直言不讳。他说,中国消费率低,主要因为大家口袋里的银子不够多。多多出评工具认为,很多人觉得咱们国人喜欢存钱不喜欢花钱,其实不是这么回事。大家之所...

番茄助手:互联网行业前景分析,人工智能、大数据与云计算的创新变革

番茄助手:互联网行业前景分析,人工智能、大数据与云计算的创新变革

聊聊你所在行业的发展前景 身处互联网行业,每天都能感受到创新的脉搏在强劲跳动,行业的发展前景也始终备受瞩目。 互联网行业的发展可谓日新月异,过去几年,云计算、大数据、人工智能、物联网等前沿...

发表评论    

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。