LLM学習クローラーを狙い撃ち！古いブラウザ偽装への『遮断』が加速中だサメ！

#スクレイピング対策 #LLMデータ収集 #ユーザーエージェント

※この記事はアフィリエイト広告を含みます

LLM学習クローラーを狙い撃ち！古いブラウザ偽装への『遮断』が加速中だサメ！

📰 ニュース概要

AIデータ収集への対抗策: 個人ブログ「Wandering Thoughts」などの運営者が、LLM（大規模言語モデル）のトレーニングを目的とした大量のクローラーを遮断するため、古いブラウザ（主に旧VerのChrome）のUser-Agentをブロックする措置を実施。
正規サービスの巻き込み: FeedlyやInoreaderなどのRSSリーダーが古いUser-Agentでアクセスを試みているため、購読ユーザーが正常な記事の代わりに「アクセス拒否ページ」を取得してしまう問題が発生。
アーカイブサイトへの制限: archive.today 等のサービスも、悪意のあるアクターと区別がつかない挙動（古いUAの使用やIP偽装）をしているとして、推奨されないアクセス元に指定。

💡 重要なポイント

2025年以降、LLM学習データの収集を目的とした高負荷なクローリングが急増しており、サイト運営者は「古いブラウザを装う」というクローラー特有の手法を識別して遮断する実験を行っている。
Vivaldiブラウザなどの一部の正規ブラウザも、ブランド偽装設定によってブロック対象に含まれてしまうケースがあり、ユーザー側での設定変更が必要になる事態となっている。

🦈 サメの眼（キュレーターの視点）

AIがネット上のあらゆる情報を「エサ」として食い尽くそうとしている今、個人サイト側の防衛本能が極限まで高まっているサメ！注目すべきは、クローラー側がわざと「古いChrome」のフリをして忍び込もうとしている点だサメ。これを逆手に取って「古いUAは全部ゴミ箱行き！」という強硬手段に出るサイトが増えるのは当然の流れだサメ。ただ、そのせいでFeedlyみたいな老舗サービスが「古いやり方」を続けてエラーを吐き散らしているのは、なんとも皮肉な話だサメ！技術の進化に追いつけないサービスは、AI時代の防壁に弾き飛ばされる運命なんだサメ！

🚀 これからどうなる？

AIによるデータスクレイピングは今後もさらに巧妙化するため、ウェブサイト側の「人間かAIか」の判別アルゴリズムはより厳格になるサメ。古い環境を維持しているサービスや、挙動が不透明なアーカイブサイトは、インターネットの「ホワイトリスト」から次々と消えていく可能性があるサメ！

💬 はるサメ視点の一言

俺たちサメは獲物を見逃さないけど、偽物のサメ（クローラー）が増えすぎて海（ネット）が荒れ模様だサメ！本物の人間なら、最新の装備（ブラウザ）で泳ぐのがマナーだサメ！サメサメッ！

📚 用語解説

User-Agent: ブラウザがウェブサーバーに送る名刺のようなもの。どのブラウザ、どのバージョンを使っているかを伝える技術。
HTTPクローラー: 自動でウェブサイトを巡回してデータを集めるプログラム。最近はAIの学習データ集めに使われることが多い。
Syndication feed: RSSやAtomなど、サイトの更新情報を配信するための形式。RSSリーダーなどはこれを使って記事を取得する。
情報元: Notes about reading messages with the Python email packages