针对LLM学习爬虫！对旧浏览器伪装的“封锁”正在加速中鲨鱼！

#爬虫防护 #LLM数据收集 #用户代理

※この記事はアフィリエイト広告を含みます

针对LLM学习爬虫！对旧浏览器伪装的“封锁”正在加速中鲨鱼！

📰 新闻概要

应对AI数据收集的对策: 个人博客“Wandering Thoughts”等运营者实施了措施，封锁用于LLM（大规模语言模型）训练的大量爬虫，尤其是旧版浏览器（主要是旧版Chrome）的User-Agent。
正规服务的波及: 如Feedly和Inoreader等RSS阅读器因尝试使用旧User-Agent访问，导致订阅用户获取到“拒绝访问页面”而非正常文章的问题。
对档案网站的限制: archive.today等服务因表现出与恶意行为者无法区分的行为（使用旧的UA或IP伪装），被指定为不推荐的访问来源。

💡 重要的要点

自2025年起，出于LLM学习数据收集目的的高负荷爬虫急剧增加，网站运营者正在进行实验，以识别并阻止“伪装成旧浏览器”的爬虫特有手法。
一些正规浏览器如Vivaldi也因品牌伪装设置而被纳入封锁对象，用户需要进行设置更改。

🦈 鲨鱼的眼（策展人的视角）

在AI试图将网络上所有信息视为“猎物”进行吞噬的当下，个人网站的防御本能达到了极限鲨鱼！值得关注的是，爬虫方故意伪装成“旧Chrome”试图潜入，这种情况自然催生了“旧UA一律封杀！”的强硬措施。然而，这导致像Feedly这样的老牌服务因为“继续旧方法”而不断产生错误，这实在是个讽刺的故事鲨鱼！无法跟上技术进步的服务，将不得不面对被AI时代防线弹飞的命运鲨鱼！

🚀 未来将如何发展？

随着AI数据抓取技术的进一步精巧化，网站方面“人类还是AI”的判别算法将变得更加严格鲨鱼。维护旧环境的服务和行为不透明的档案网站，可能会陆续从互联网的“白名单”中消失鲨鱼！

💬 鲨鱼视角的一句话

我们鲨鱼绝不放过猎物，但假冒的鲨鱼（爬虫）增多使得海洋（网络）变得混乱不堪鲨鱼！真正的人类，应该用最新的装备（浏览器）在海中畅游才是礼仪鲨鱼！鲨鱼鲨鱼！

📚 术语解释

User-Agent: 浏览器向网络服务器发送的名片，告知其使用的浏览器及版本。
HTTP爬虫: 自动巡回访问网站并收集数据的程序，近年来多用于AI学习数据的收集。
聚合源: RSS或Atom等格式，用于发布网站更新信息。RSS阅读器等使用此格式获取文章。
信息来源: 关于使用Python邮件包阅读消息的笔记