网页爬虫AI机器人冲击科学数据库与期刊,学术网站流量告急

释放双眼,带上耳机,听听看~!

自动化程序疯狂采集训练数据,致使科研网站和期刊服务器超负荷

今年2月,拥有近300万生物物种图片的在线图库 DiscoverLife 遭遇了每日数百万次访问量的流量激增,远超往常。网站一度因访问量过大变得缓慢甚至无法使用。罪魁祸首正是大量自动化爬虫机器人(bots)。

这些自动程序无视网站限制,批量抓取内容,成为期刊出版社和科研数据库运营者的头痛问题。它们大量涌入学术论文、数据库等资源网站,试图收集训练人工智能(AI)模型所需的数据。

网页爬虫AI机器人冲击科学数据库与期刊,学术网站流量告急

爬虫流量飙升背后的AI训练需求

英国牛津公司 PSI 的CEO Andrew Pitts 表示,“现在就像是‘狂野西部’,问题在于请求量巨大,给网站系统带来压力,增加成本并干扰真实用户使用体验。”

许多爬虫流量来自匿名IP,难以追踪。面对泛滥,网站管理员努力设置屏蔽机制,但这对资源有限的小型机构尤其艰难。德国斯图加特州立自然历史博物馆动物学家 Michael Orr 担忧:“如果问题得不到解决,这些小型科研项目可能会消亡。”

爬虫机器人的“好坏”之分

互联网爬虫由来已久,一些如Google搜索引擎的机器人十分有用,负责网页索引和检索。但随着生成式AI的兴起,出现了大量“坏爬虫”,无授权大规模抓取数据,形势日益严峻。

伦敦医学期刊BMJ今年发现,访问其网站的机器人流量已经超过真实用户,导致服务器过载和服务中断。BMJ首席技术官 Ian Mulvany 表示,这种攻击性流量严重影响了正常服务。

英国Highwire Press服务总监 Jes Kainth 也透露:“我们观察到‘坏爬虫’流量剧增,问题非常严重。”

开放存储库频遭爬虫“围攻”

开放存取存储库联盟(COAR)4月发布调查报告,66个成员中超过90%遇到AI爬虫抓取内容,其中约2/3出现服务中断。COAR执行董事 Kathleen Shearer 表示,虽然开放存取鼓励内容再利用,但一些爬虫过于激进,造成了重大运营问题。

DeepSeek引爆爬虫潮

推动AI爬虫暴涨的一个关键因素是新范式的大型语言模型 DeepSeek。与以往需要大量算力的LLM不同,DeepSeek演示了用较少资源即可训练出媲美流行AI工具的模型,引发各国大量爬虫争相搜集训练数据,模仿领先模型DeepSeek。

学术内容成抢手“原料”

科研网站的数据因新颖性和高价值成为AI开发者眼中的“香饽饽”。Cloudflare副总裁 Will Allen 指出,即便许多期刊设置了付费墙,技术高明的“坏爬虫”仍能突破防线。

出版商 Wiley 表示,爬虫正试图抓取开放访问和付费内容。4月,Wiley 发布声明强调,AI开发者需获得授权,方可爬取其受版权保护内容。

抵御爬虫的艰难平衡

学术网站尝试通过技术手段限制爬虫,但难免影响正常用户访问。例如,许多学者通过代理服务器访问期刊,多个请求集中在同一IP,看似爬虫行为。BMJ的 Mulvany 指出:“我们必须在保护系统免受攻击和不妨碍客户访问之间取得平衡。”

网站可通过代码文件(如robots.txt)告知爬虫允许或禁止行为,但“坏爬虫”往往忽视这些规定。此外,精准区分“好爬虫”和“坏爬虫”仍具挑战,Cloudflare和PSI等机构正致力于维护爬虫名单。

国际合作迫在眉睫

尽管已有多种应对工具,AI爬虫仍在不断进化,当前措施难以完全阻止非法爬取。Orr呼吁:“我们需要国际层面的AI合理使用协议和资源保护,否则未来训练这些工具的资源将消失殆尽。”

学术界与技术界正面临如何既保护知识产权又支持AI创新的双重难题,网络爬虫风暴还远未平息。

AI前沿文章

医疗界迅速拥抱 AI,监管滞后引发专家担忧

2025-6-10 22:31:13

AI前沿AI工具测评文章

纳米AI超级搜索智能体:重新定义AI搜索的新纪元

2025-6-12 20:47:50

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索