
先週、フェデリコと私はロブ・ナイト氏に、人工知能企業が導入したウェブクローラーによるMacStoriesのスクレイピングをブロックするためにできる限りのことをするよう依頼しました。ロブ氏は既にrobots.txt
数ヶ月前に自身のサイトのファイルを更新していたので、MacStoriesでもまずそれを実行しました。
ただし、robots.txt
これは企業のウェブクローラーがファイルを尊重するように設定されている場合にのみ機能します。今週初めに書いたように、より良い解決策はサーバー上でそれらをブロックすることです。Robbは個人サイトでこれを実行しており、先週後半に記事を書いています。この設定では、サーバーコードにリストされているボットのいずれかがサイトに情報をリクエストすると、403エラーが送信されます。
Robbの投稿を読んだ後、Federicoと私は彼にMacStoriesでも同じことをするように頼みました。そして彼は先週の土曜日にそれを実行しました。セットアップが完了すると、Federicoはセットアップのテストを始めました。OpenAIは予想通りエラーを返しましたが、PerplexityのボットはMacStoriesにアクセスできました。これは本来あるべきではないことでした。1
そこから、何が起こっているのかを突き止めるための徹底的な調査が始まりました。Robbのコードは、Perplexity自身のAPIドキュメントで指定されているユーザーエージェントをブロックしていました。さらにテストを重ねた結果、Perplexityは本来使用するはずのユーザーエージェントを使用せずにMacStoriesのサーバーにアクセスしていたことが判明しました。これは、Robbのサーバーコードを迂回する行為でした。
ロブは自身のウェブサイトで調査結果を報告し、その記事はすぐにHacker Newsのトップに躍り出て、当時Perplexityの仕組みを調査中だったWiredのドゥルヴ・メロトラ氏とティム・マーチマン氏の目に留まりました。メロトラ氏とマーチマン氏は次のように述べています。
WIREDと開発者ロブ・ナイトによる分析によると、Perplexityは、ロボット排除プロトコルとして知られる広く受け入れられているウェブ標準を無視することで、ボットによるアクセスを望まないウェブサイトの領域を密かにスクレイピングしているようだ。しかし、実際にはそうではないと主張している。WIREDは、Perplexityに接続されたマシン(より正確にはAmazonサーバー上にあり、Perplexityによって運営されているとほぼ確信している)が、wired.comやその他のコンデナストの出版物でこれを実行しているのを観察した。
今週初めまで、Perplexityはドキュメント内でクローラーが使用するIPアドレスのリストへのリンクを公開しており、透明性を確保しようとしていたことは明らかです。しかし、WIREDとKnightの両誌が実証したように、一部のケースでは、少なくとも1つの非公開IPアドレスを使用して、Perplexity Botと呼ばれるクローラーをブロックしようとしたコーダーのウェブサイトにアクセスし、スクレイピングを行っているようです。同社はその後、ドキュメントから公開IPアドレスプールへの言及を削除しました。
この秘密IPアドレス(44.221.181.252)は、WIREDを所有するメディア企業コンデナストの拠点に、過去3ヶ月間で少なくとも822回アクセスしています。コンデナストのあるシニアエンジニアは、「この件には関与したくない」という理由で匿名を条件に、このアクセス回数は「大幅に過少」だと述べています。同社はネットワークログのごく一部しか保持していないためです。
WIREDは、新しいウェブサイトを作成し、そのサーバーログを監視することで、問題のIPアドレスがPerplexityにほぼ確実に関連していることを確認しました。WIREDの記者がPerplexityのチャットボットにウェブサイトのコンテンツを要約するよう指示した直後、サーバーは当該IPアドレスがサイトを訪問したことを記録しました。この同じIPアドレスは、Knight氏が同様のテスト中に初めて観測したものです。
このような非倫理的な行為こそが、MacStoriesのウェブサイトをPerplexityやその他の企業による学習データとして利用することをブロックする措置を講じた理由です。2このような事件や、AI企業がモデルをどのように学習させるかに関する透明性の欠如は、ウェブ上でコンテンツを公開するクリエイターの間で、業界全体への不信感を募らせています。Perplexityの悪質な行為を暴くことに少しでも貢献できたことを嬉しく思いますが、このような行為を抑制するには、世界中の規制当局によるより厳格な監視を含め、より多くの対策が必要です。
補足として、Wired誌は、ウェブサイトは剽窃に引用が含まれているため、Perplexityの挙動を許容すべきだという主張を否定していることも指摘しておく価値がある。Wired誌の記事によると、
WIREDの記録によると、Perplexityは5月にwired.comに1,265件の参照を送信しましたが、これはサイト全体のトラフィック量からすると微々たる数です。最も多くのトラフィックが参照された記事の閲覧数は17件でした。
これは、Similarwebなどのサイトが同月2000万ページビュー以上と推定するWiredのトラフィックを抱えるサイトにとっては、ほとんど取るに足らない数字です。これは、Wiredの5月のトラフィックのわずか0.006%に過ぎません。この事実をよく考えて、これが公平な取引と言えるかどうか自問自答してみてください。
- その間、私はレトロゲームフェスティバルで古いビデオゲームやハードウェアの箱を掘り返しながら、NPC の「調査」をしていました。↩︎
- Mehrotra氏とMarchman氏は、Perplexity社が他社のLLM(法定言語モデル)に便乗し、スクレイピングしたウェブデータと組み合わせて、事実上ソースのコンテンツを置き換える要約を提供していることから、同社がAI企業と言えるのかどうか疑問視しています。しかし、Perplexity社がサイトのrobot.txtファイルを尊重すると公言しながら、密かにサイトをスクレイピングしているという事実は変わりません。そこが倫理的に問題なのです。↩︎
追加コンテンツと特典にアクセスする
Club MacStories は 2015 年に設立され、ほぼ 10 年間にわたって毎週独占コンテンツを提供してきました。
毎週、毎月の電子メール ニュースレターから始まったものが、すべての MacStories ファン向けに設計されたメンバーシップ ファミリーに成長しました。
詳細については、こちらおよびクラブの FAQ をご覧ください。
Club MacStories : アプリ、ヒント、自動化ワークフロー、長文執筆、MacStories Unwind ポッドキャストへの早期アクセス、定期的な景品など、盛りだくさんの情報を満載した、電子メールと Web 経由の週刊および月刊ニュースレター。
Club MacStories+ : Club MacStories が提供するすべての機能に加え、アクティブな Discord コミュニティ、クラブの過去のカタログ全体を閲覧するための高度な検索機能とカスタム RSS 機能、ボーナス コラム、多数のアプリ割引などが含まれます。
Club Premier : 上記のすべてに加え、早期に、広告なしで、高ビットレートのオーディオで配信される当社の主力ポッドキャストの拡張バージョンである AppStories+ が含まれます。