LLM学習クローラーを狙い撃ち!古いブラウザ偽装への『遮断』が加速中だサメ!
📰 ニュース概要
- AIデータ収集への対抗策: 個人ブログ「Wandering Thoughts」などの運営者が、LLM(大規模言語モデル)のトレーニングを目的とした大量のクローラーを遮断するため、古いブラウザ(主に旧VerのChrome)のUser-Agentをブロックする措置を実施。
- 正規サービスの巻き込み: FeedlyやInoreaderなどのRSSリーダーが古いUser-Agentでアクセスを試みているため、購読ユーザーが正常な記事の代わりに「アクセス拒否ページ」を取得してしまう問題が発生。
- アーカイブサイトへの制限:
archive.today等のサービスも、悪意のあるアクターと区別がつかない挙動(古いUAの使用やIP偽装)をしているとして、推奨されないアクセス元に指定。
💡 重要なポイント
- 2025年以降、LLM学習データの収集を目的とした高負荷なクローリングが急増しており、サイト運営者は「古いブラウザを装う」というクローラー特有の手法を識別して遮断する実験を行っている。
- Vivaldiブラウザなどの一部の正規ブラウザも、ブランド偽装設定によってブロック対象に含まれてしまうケースがあり、ユーザー側での設定変更が必要になる事態となっている。
🦈 サメの眼(キュレーターの視点)
AIがネット上のあらゆる情報を「エサ」として食い尽くそうとしている今、個人サイト側の防衛本能が極限まで高まっているサメ!注目すべきは、クローラー側がわざと「古いChrome」のフリをして忍び込もうとしている点だサメ。これを逆手に取って「古いUAは全部ゴミ箱行き!」という強硬手段に出るサイトが増えるのは当然の流れだサメ。ただ、そのせいでFeedlyみたいな老舗サービスが「古いやり方」を続けてエラーを吐き散らしているのは、なんとも皮肉な話だサメ!技術の進化に追いつけないサービスは、AI時代の防壁に弾き飛ばされる運命なんだサメ!
🚀 これからどうなる?
AIによるデータスクレイピングは今後もさらに巧妙化するため、ウェブサイト側の「人間かAIか」の判別アルゴリズムはより厳格になるサメ。古い環境を維持しているサービスや、挙動が不透明なアーカイブサイトは、インターネットの「ホワイトリスト」から次々と消えていく可能性があるサメ!
💬 はるサメ視点の一言
俺たちサメは獲物を見逃さないけど、偽物のサメ(クローラー)が増えすぎて海(ネット)が荒れ模様だサメ!本物の人間なら、最新の装備(ブラウザ)で泳ぐのがマナーだサメ!サメサメッ!
📚 用語解説
-
User-Agent: ブラウザがウェブサーバーに送る名刺のようなもの。どのブラウザ、どのバージョンを使っているかを伝える技術。
-
HTTPクローラー: 自動でウェブサイトを巡回してデータを集めるプログラム。最近はAIの学習データ集めに使われることが多い。
-
Syndication feed: RSSやAtomなど、サイトの更新情報を配信するための形式。RSSリーダーなどはこれを使って記事を取得する。
-
情報元: Notes about reading messages with the Python email packages