【クラウドフレア】ワンクリックでボット、 クローラーをブロック できるって本当?【PR】
まんきちです。本ブログではアフィリエイト広告を利用しています。
先日、Cloudflareが簡単にAIボット、AIクローラーをブロックできる機能を追加したというニュースが流れました。
Cloudflare、ワンクリックでAIボット、AIクローラーをブロックする設定を追加
なぜ、ボットやクローラーをブロックする必要があるのでしょうか?
ウェブサイトを運営していらっしゃる方なら、グーグルが日々クローラーで各サイトの内容をサーチエンジン用にインデックスしているのはご存じでしょう。
ですが、各サイトの内容をクロールまたはスクレイピングしているのはグーグルだけではありません。今やたくさんのボットやクローラーがさまざまな目的で各サイトを「自動巡回」してサイトのコンテンツを読み込んでいます。
主な目的としては、
- 生成AIの学習目的
- まとめサイトなどの記事収集
- ライバルサイトのタイトルや見出し調査
などでしょうか。
ご自分のサイトの検索順位を上げたいと思っているのに、ライバルサイトから記事を盗まれてはたまりませんよね?
通常、ボットやクローラー対策としてウェブサーバーにrobots.txt というファイルをおいて、そこにアクセスしてほしくない場所を記載することで、情報をボットやクローラーから守っています。しかし、これはいわば紳士協定のようなもので法的拘束力などありません。もちろん、サーバーに負荷をかけてダウンさせてしまったり、コンテンツをコピペしたりなどは別の法的問題になりますが。
参考:Web スクレイピングとは?自社サイトが晒される脅威から対策まで解説
では、どうしたらいいのでしょうか?
この記事では、
- Cloudflareの設定方法
- loudflareで本当に簡単にボットをブロックできるのか?
- Cloudflareを使う上での注意点
などを解説します。
なお、本記事ではCloudflareの「無料版」を使用します。
Contents
Cloudflare(クラウドフレア)の設定方法
まず、Cloudlare にアカウントを作成します。
表示が英語になっていますので、右上の言語メニューで「日本語」に変更しましょう。
日本語になりました。
次にログインをするのですが、ここで一つ「ロボット対策」が入っています。
注意:筆者の環境では Microsoft のEdgeでは人間だと判断してもらえずにログインできませんでした。Chromeでは問題なくログインできました。
まだ、サイトの登録が何もされていないので「始める」を押します。
続いてドメインを入力します。ここでは、筆者のテスト用のブログである https://turkeyfarm.fun を使用することとします。
注意事項としては、
- URLの https:// は省略すること
- サブドメインのURL(e.g. https://xxxx.turkeyfarm.fun) は登録できないのでドメインのURLを入力する
turkeyfarm.fun と入れて、「続行」を押します。
次にプランを選択します。
Cloudflareには、
- Free
- Pro
- Business
- Enterprise
があります。
今回は「Free」を選んで「プランを確認する」を押します。
DNSレコード作成のために「クイックスキャンを開始」を押します。
DNSレコードが追加されたようです。「続行」を押します。
続いて、ドメインのアクティベーションを開始します。手順が同ページに表示されます。
順番としては、まずサーバー側(筆者の場合は、ConohaWING)のネームサーバーをCloudflareのネームサーバーに変更します。変更手順は省略します。
その後、ICANWHOIS で変更が反映されたかの確認を行ないます。
Nameservers が Cloudflare のものに変わっていたらOKです。
「続行」を押して先に進みましょう。
DNSの更新は終わっていてもいなくてもやることはないので「turkeyfarm.funの概要に進む」を押してしまいましょう。
「設定をレビュー」を押してみます。
「始める」を押してはじめましょう!
「HTTPSの自動リライト」を「ON」にして「保存」します。
「常にHTTPSを使用」を「ON」にして「保存」します。
「終了」を押します。
ここの設定は後で変更ができますので、もし何か不具合があれば、設定を変更してみましょう。
ここで、https://turkeyfarm.fun へアクセスをしてみましょう。
あれ?エラーが出てつながりません。調査したところこれはどうやらSSL/TLSの設定が原因のようです。
Cloudflare でSSL/TLSの設定を見てみましょう。
SSL/TLSの暗号化モードが「フレキシブル」になっていたので、「フル」に変更しました。
再度 接続してみたところ無事サイトが表示されました!
Cloudflareで本当に簡単にボットをブロックできるのか?
このテストはちょっと難しいので、まずサイトをスクレイピングするプログラムを書いてみました。(コードの詳細は省略)
そのプログラムを Cloudflare の設定をする前に実行した結果がこちらです。
サイト内の記事の見出しを読みだせています。
続いて、Cloudflare の設定後に実行した結果がこちらです。ブロックされているようです。
しかし、Cloudflare のボットの設定を確認すると設定が「OFF」になっています。従って、別の理由でブロックされたようです。
イベントログを確認してみると、どうやら「ブラウザ整合性チェック」というのに引っかかってしまったようです。Cloudflare に接続するだけで、セキュリティレベルが上がっているようです。
気を取り直して、「AI スクレーパーとクローラーをブロックする」を「ON」にします。
これにより、WAF (Web Application Firewall)のカスタムルールの中の「Block AI Scrapers and Crowler rule」というのが連動して「ON」になりました。
これで様子を見ていると、むむむ、何か引っかかりました!
どうやら OpenAI のGPTBotがブロックされたようです!
ワンクリックでボットをブロックできるというのは本当でした!
ところで、ボットやクローラーがブロックされてしまうと、グーグルのクローラーまでブロックされちゃうんじゃないの?と心配になりますよね?
確認したところ、Google Search Console や Page Speed Insights など問題なく動作していましたよ!
Cloudflare を使う上での注意点
無料でも、ここまでの機能がある Cloudflare はとても魅力的ではあるのですが、いくつかのデメリット、あるいは注意点があるようです。
Cloudflare がダウンしてしまうリスク
当然ですが、Cloudflare がダウンしてしまうとたとえサーバーが動いていてもサイトにアクセスができなくなってしまいます。もちろんサーバーがダウンしてしまうリスクもゼロではありませんので、サイトダウンのリスクは増えます。
特にCloudflare は過去に約2時間、主要な19のデータサーバーが障害を起こし、Discordなど複数のサイトが影響を受けて、アクセスできなかったことがあります。
Cloudflare outage on June 21, 2022
WordPressのキャッシュ事故のリスク
Cloudflare にはページルールという設定があります。(下記参照)
ページ ルール
ページ ルールを使用すると、特定の URL でトリガーする Cloudflare 設定をコントロールできます。URL ごとにトリガーされるページ ルールは 1 個のみであるため、ページ ルールを優先度順に並べ替えて、URL パターンを可能なかぎり具体的にすると便利です。
出典:Page Rules
この設定を適切に行なっていないといわゆるキャッシュ事故(キャッシュするつもりのないコンテンツをキャッシュしてしまい配信してしまう事故)が発生してしまうようです。一例では、ありますが、本来管理者権限でないとアクセスできないコンテンツ(管理画面)が誰からも見えてしまったりする可能性があります。
そのため、ページルールとして、「管理用のディレクトリー(/wp-admin/)以下はキャッシュしない」といった設定をしておくことが必要です。なお、無料プランではページルールは3つまでしか設定ができません。
参考:WordPressサイトでCloudflareを使う時に最適なページルール設定
正規のユーザーからのアクセスがブロックされる可能性
筆者が書いたスクレイピングソフトからのアクセスが、ボットとしてブロックされるのではなく、ブラウザ整合性チェックによってブロックされたことは正規のユーザーからのアクセスでもブロックされる可能性があることを意味しています。特に古いバージョンのブラウザーからのアクセスはその危険性が高いです。
アクセスする側の問題と言えばそうなのですが「突然ブロックされた」と感じるユーザーは多いでしょうし、クレームに発展することも十分考えられます。
適切な運用をするための知識が必要
Cloudflare は専門的な知識がなくても、比較的簡単に設定などができてしまいます。
しかし、上述したページルールの設定やキャッシュの設定などは、ある程度の知識がないと適切な設定を行なうことができません。
Cloudflare の評判は?
最後にCloudflareの口コミや評判を下記のサイトで見てみました。
Cloudflareの評判を全42件のユーザーレビュー・口コミで紹介
かなり評価が高いのがわかります。
ただし、パフォーマンスについては個々のサイトのサーバーの設定あるいはサーバーとの相性があるように思います。無料トライアルもありますので、まずは実際に試してみるのがよいでしょう。
今すぐチェック=>Webサイト高速化・セキュリティ対策 Cloudflare(クラウドフレア) 1ヵ月無料トライアル登録