Cloudflare、Perplexity AIがウェブサイトのブロックを回避するためにステルス・クローラーを使用していると非難 - AIスクレイピングの大規模な取り締まりに飛び火
Cloudflareは、180億ドルを投じて急成長しているAI検索スタートアップのPerplexity AIに対して、同社がステルス戦術を使って、自社のボットを明確にブロックしているウェブサイトからコンテンツをスクレイピングしたとして、深刻な非難を行った。
この疑惑は、AI企業による秘密裏のデータ抽出に対するテック業界の戦いを大きくエスカレートさせ、ウェブサイト所有者、パブリッシャー、そしてデジタル著作権擁護団体の緊急の関心を集めた。
Cloudflareの顧客が、robots.txtディレクティブや特定のファイアウォールルールを導入してPerplexityをブロックしているにもかかわらず、Perplexityのボットがサイトにアクセスし続けていると報告したことから、この論争が勃発した。
その疑いを確かめるため、Cloudflareのエンジニアは、すべての自動アクセスを禁止する制限的なrobot.txtファイルを持つドメインを作成し、制御された実験を行った。
しかし、PerplexityのAIに問い合わせたところ、制限されたドメインでホストされているコンテンツに関する詳細な情報が表示され、PerplexityのAIクローラーが積極的にブロックを回避していることが明らかになった。
さらに驚くべきことに、テストを実施したCloudflareのエンジニアは、PerplexityがmacOS上でGoogle Chromeのような主流のブラウザを模倣することで身元を隠したステルス・クローラーを展開していたことにも気づいた。
これらのクローラーはIPアドレスをローテーションし、しばしば複数の自律システムから動作し、Perplexityが公表している範囲外のIPからリクエストを発行した。
Cloudflareは、これらの「宣言されていない」クローラーの量が、同社の宣言されたトラフィックに加えて1日あたり300万~600万リクエストを追加し、何万ものドメインに影響を与えたと推定している。
クラウドフレアの迅速な報復と業界への影響
Cloudflareはこれに対し、Perplexityを検証済みボットプログラムから除外し、新たな防御策を展開した。
Cloudflareに登録されたすべての新規ドメインは、デフォルトで無許可のAIクローラーから保護されるようになった。
同社はまた、Perplexityのステルス戦術を標的にしたシグネチャベースのルールをCloudflareの全顧客に無料でリリースし、"AIラビリンス "のような高度なツールを試験的に導入している。
この機能は、おとりコンテンツに不正なボットを閉じ込めるもので、今後発表される「ペイ・パー・クロール」システムによって、パブリッシャーはAIツールによってコンテンツがどのようにアクセスされるかを直接マネタイズし、コントロールできるようになるかもしれない。
AP通信、Time、BuzzFeed、Reddit、Universal Music Groupなどの大手パブリッシャーやプラットフォームが、コンテンツクリエイターが無許可のデータ収集に不満を募らせる中、不要なAIクローラーをブロックする動きの高まりに加わっている。
この告発を受け、Perplexity AIはCloudflareの "売り込み "であるとしてこの調査結果を否定し、サイトアクセス禁止を無視してコンテンツにアクセスした事実はないと主張している。
転換期を迎えた業界
この対立は1つの新興企業だけの問題ではない。Cloudflareのマシュー・プリンスCEOは、AIによるウェブスクレイピングの「持続不可能な」慣行を声高に批判し、その悲惨な比率を指摘している:グーグルは18のコンテンツをクロールするごとに1人のウェブサイト訪問者を紹介しているが、AI企業の比率ははるかに悪く、時には1,500から60,000ページがスクレイピングされるごとに1人の紹介訪問者ということもある。
この事態は、ウェブコンテンツの将来、出版収入、AIアクセスを取り締まる適切なメカニズムについての議論を再燃させた。
Cloudflareは、Perplexityの挙動をOpenAIと対比している。OpenAIはサイトのプリファレンスを適切に尊重し、指示があればクロールを停止すると主張している。
同社のメッセージは明確だ。ステルス・スクレイピングの時代は、透明性、同意、公正な報酬に道を譲らなければならない。
この一触即発の事態は、データの権利、AIの開発、そしてオンライン出版の経済的基盤について、技術界に難しい問いを突きつけようとしている。
AIが検索、コンテンツ発見、デジタル体験にこれまで以上に統合されるにつれ、CloudflareとPerplexityの紛争からの影響は、デジタル経済の次の段階を通じて、ウェブサイトがコンテンツを守る方法、そしてAIスタートアップが製品を構築する方法を形作る可能性が非常に高い。