3 min read
[AI 小众新闻]

针对LLM学习爬虫!对旧浏览器伪装的“封锁”正在加速中鲨鱼!


  • 应对AI数据收集的对策: 个人博客“Wandering Thoughts”等运营者实施了措施,封锁用于LLM(大规模语言模型)训练的大量爬虫,尤其是旧版浏览器(主要是旧版Chrome)的User-Agent。...
※この記事はアフィリエイト広告を含みます

针对LLM学习爬虫!对旧浏览器伪装的“封锁”正在加速中鲨鱼!

📰 新闻概要

  • 应对AI数据收集的对策: 个人博客“Wandering Thoughts”等运营者实施了措施,封锁用于LLM(大规模语言模型)训练的大量爬虫,尤其是旧版浏览器(主要是旧版Chrome)的User-Agent。
  • 正规服务的波及: 如Feedly和Inoreader等RSS阅读器因尝试使用旧User-Agent访问,导致订阅用户获取到“拒绝访问页面”而非正常文章的问题。
  • 对档案网站的限制: archive.today等服务因表现出与恶意行为者无法区分的行为(使用旧的UA或IP伪装),被指定为不推荐的访问来源。

💡 重要的要点

  • 自2025年起,出于LLM学习数据收集目的的高负荷爬虫急剧增加,网站运营者正在进行实验,以识别并阻止“伪装成旧浏览器”的爬虫特有手法。
  • 一些正规浏览器如Vivaldi也因品牌伪装设置而被纳入封锁对象,用户需要进行设置更改。

🦈 鲨鱼的眼(策展人的视角)

在AI试图将网络上所有信息视为“猎物”进行吞噬的当下,个人网站的防御本能达到了极限鲨鱼!值得关注的是,爬虫方故意伪装成“旧Chrome”试图潜入,这种情况自然催生了“旧UA一律封杀!”的强硬措施。然而,这导致像Feedly这样的老牌服务因为“继续旧方法”而不断产生错误,这实在是个讽刺的故事鲨鱼!无法跟上技术进步的服务,将不得不面对被AI时代防线弹飞的命运鲨鱼!

🚀 未来将如何发展?

随着AI数据抓取技术的进一步精巧化,网站方面“人类还是AI”的判别算法将变得更加严格鲨鱼。维护旧环境的服务和行为不透明的档案网站,可能会陆续从互联网的“白名单”中消失鲨鱼!

💬 鲨鱼视角的一句话

我们鲨鱼绝不放过猎物,但假冒的鲨鱼(爬虫)增多使得海洋(网络)变得混乱不堪鲨鱼!真正的人类,应该用最新的装备(浏览器)在海中畅游才是礼仪鲨鱼!鲨鱼鲨鱼!

📚 术语解释

  • User-Agent: 浏览器向网络服务器发送的名片,告知其使用的浏览器及版本。

  • HTTP爬虫: 自动巡回访问网站并收集数据的程序,近年来多用于AI学习数据的收集。

  • 聚合源: RSS或Atom等格式,用于发布网站更新信息。RSS阅读器等使用此格式获取文章。

  • 信息来源: 关于使用Python邮件包阅读消息的笔记

🦈 はるサメ厳選!イチオシAI関連
【免責事項 / Disclaimer / 免责声明】
JP: 本記事はAIによって構成され、運営者が内容の確認・管理を行っています。情報の正確性は保証せず、外部サイトのコンテンツには一切の責任を負いません。
EN: This article was structured by AI and is verified and managed by the operator. Accuracy is not guaranteed, and we assume no responsibility for external content.
ZH: 本文由AI构建,并由运营者进行内容确认与管理。不保证准确性,也不对外部网站的内容承担任何责任。
🦈