在科技领域,开源软件的坚韧精神与日益增长的AI爬虫威胁之间的冲突,正变得愈发明显。SourceHut创始人兼CEO Drew DeVault 最近在个人博客上发表了对AI公司的强烈批评,指责它们毫无节制地抓取数据,完全无视 robots.txt 协议,导致SourceHut的服务一度中断。事情并非个案,KDEGitLab的基础设施也遭遇了阿里巴巴的AI爬虫的疯狂侵袭,致使开发者短时间内无法访问项目资源。
为了保护自身的开源项目,GNOME团队决定采取措施,部署了一种名为Anubis的工作量证明工具。这一工具要求浏览器计算数算,并将答案返回给服务器,只有正确答案的用户才能顺利访问网站。GNOME系统管理员Bart Piotrowski在社交媒体Mastodon上公开了一组惊人的数据:在两个半小时内,他们网站收到了81,000个请求,其中仅有3%通过了Anubis的验证,令人震惊的是,97%的流量来自于机器人爬虫!
这一严峻的数据让人不禁想起LWN的主编Jonathan Corbet的警告:AI爬虫的DDoS攻击可以使得很多网站间歇性地出现缓慢的访问体验。他指出,在流量中,用户的访问几乎微不足道,许多爬虫通过多个IP地址发起攻击,仿佛是针对网站进行轰炸。更让人无奈的是,AI爬虫几乎完全忽视了 robots.txt 文件,让这场战争愈加混乱。
为了对抗这些智能爬虫,Fedora项目的系统管理员Kevin Fenzi甚至选择了屏蔽整个巴西的IP地址,以减少这些临近攻击带来的麻烦。而Inkscape项目同样感到无能为力凤凰体育中超联赛直播,面临着类似的挑战。开源项目的基础设施本就相对脆弱,面对反复无常的AI爬虫,开发者们似乎在与时间赛跑,无奈之中不得不寻找新的生存方式。
无疑,这场人机之间的对冲战争将开源社区与AI技术的未来紧紧相连,而更多的反思或许也在等待着我们去深入探讨。开源的崇高理想究竟能否应对这些智能侵略者的挑战?返回搜狐,查看更多