【クラウドフレア】ワンクリックでボット、 クローラーをブロック できるって本当?【PR】

この記事はアフィリエイト広告を利用しています。

まんきちです。本ブログではアフィリエイト広告を利用しています。

先日、Cloudflareが簡単にAIボット、AIクローラーをブロックできる機能を追加したというニュースが流れました。

Cloudflare、ワンクリックでAIボット、AIクローラーをブロックする設定を追加

なぜ、ボットやクローラーをブロックする必要があるのでしょうか?

ウェブサイトを運営していらっしゃる方なら、グーグルが日々クローラーで各サイトの内容をサーチエンジン用にインデックスしているのはご存じでしょう。

ですが、各サイトの内容をクロールまたはスクレイピングしているのはグーグルだけではありません。今やたくさんのボットやクローラーがさまざまな目的で各サイトを「自動巡回」してサイトのコンテンツを読み込んでいます。

主な目的としては、

  • 生成AIの学習目的
  • まとめサイトなどの記事収集
  • ライバルサイトのタイトルや見出し調査

などでしょうか。

ご自分のサイトの検索順位を上げたいと思っているのに、ライバルサイトから記事を盗まれてはたまりませんよね?

通常、ボットやクローラー対策としてウェブサーバーにrobots.txt というファイルをおいて、そこにアクセスしてほしくない場所を記載することで、情報をボットやクローラーから守っています。しかし、これはいわば紳士協定のようなもので法的拘束力などありません。もちろん、サーバーに負荷をかけてダウンさせてしまったり、コンテンツをコピペしたりなどは別の法的問題になりますが。

参考:Web スクレイピングとは?自社サイトが晒される脅威から対策まで解説

では、どうしたらいいのでしょうか?

この記事では、

  • Cloudflareの設定方法
  • loudflareで本当に簡単にボットをブロックできるのか?
  • Cloudflareを使う上での注意点

などを解説します。

なお、本記事ではCloudflareの「無料版」を使用します。

Cloudflare(クラウドフレア)の設定方法

まず、Cloudlare にアカウントを作成します。

cloudflare login screen

表示が英語になっていますので、右上の言語メニューで「日本語」に変更しましょう。

language selection

日本語になりました。

cloudflare login bot  check

次にログインをするのですが、ここで一つ「ロボット対策」が入っています。

注意:筆者の環境では Microsoft のEdgeでは人間だと判断してもらえずにログインできませんでした。Chromeでは問題なくログインできました。

botcheck fail

まだ、サイトの登録が何もされていないので「始める」を押します。

cloudflare setup

続いてドメインを入力します。ここでは、筆者のテスト用のブログである https://turkeyfarm.fun を使用することとします。

注意事項としては、

  • URLの https:// は省略すること
  • サブドメインのURL(e.g. https://xxxx.turkeyfarm.fun) は登録できないのでドメインのURLを入力する

turkeyfarm.fun と入れて、「続行」を押します。

cloudflare plan

次にプランを選択します。

Cloudflareには、

  • Free
  • Pro
  • Business
  • Enterprise

があります。

参考:アプリケーションサービスプラン | 料金設定

cloudflare free plan

今回は「Free」を選んで「プランを確認する」を押します。

cloudflare dns record

DNSレコード作成のために「クイックスキャンを開始」を押します。

cloudflare dns record

DNSレコードが追加されたようです。「続行」を押します。

cloudflare domain activation

続いて、ドメインのアクティベーションを開始します。手順が同ページに表示されます。

cloudflare domain activation

順番としては、まずサーバー側(筆者の場合は、ConohaWING)のネームサーバーをCloudflareのネームサーバーに変更します。変更手順は省略します。

その後、ICANWHOIS で変更が反映されたかの確認を行ないます。

domain lookup
domain information

Nameservers が Cloudflare のものに変わっていたらOKです。

cloudflare domain name server

「続行」を押して先に進みましょう。

cloudflare domain activation

DNSの更新は終わっていてもいなくてもやることはないので「turkeyfarm.funの概要に進む」を押してしまいましょう。

cloudflare setup done

「設定をレビュー」を押してみます。

cloudflare quick start guide

「始める」を押してはじめましょう!

cloudflare configuration

「HTTPSの自動リライト」を「ON」にして「保存」します。

cloudflare configuration

「常にHTTPSを使用」を「ON」にして「保存」します。

cloudflare configuration

「終了」を押します。

ここの設定は後で変更ができますので、もし何か不具合があれば、設定を変更してみましょう。

ここで、https://turkeyfarm.fun へアクセスをしてみましょう。

cloudflare error

あれ?エラーが出てつながりません。調査したところこれはどうやらSSL/TLSの設定が原因のようです。

Cloudflare でSSL/TLSの設定を見てみましょう。

cloudflare security

SSL/TLSの暗号化モードが「フレキシブル」になっていたので、「フル」に変更しました。

再度 接続してみたところ無事サイトが表示されました!

cloudflare working

Cloudflareで本当に簡単にボットをブロックできるのか?

このテストはちょっと難しいので、まずサイトをスクレイピングするプログラムを書いてみました。(コードの詳細は省略)

そのプログラムを Cloudflare の設定をする前に実行した結果がこちらです。

site scraping without cloudflare

サイト内の記事の見出しを読みだせています。

続いて、Cloudflare の設定後に実行した結果がこちらです。ブロックされているようです。

site scraping with cloudflare

しかし、Cloudflare のボットの設定を確認すると設定が「OFF」になっています。従って、別の理由でブロックされたようです。

cloudflare super bot mode

イベントログを確認してみると、どうやら「ブラウザ整合性チェック」というのに引っかかってしまったようです。Cloudflare に接続するだけで、セキュリティレベルが上がっているようです。

cloudflare brwoser check

気を取り直して、「AI スクレーパーとクローラーをブロックする」「ON」にします。

cloudflare bot block

これにより、WAF (Web Application Firewall)のカスタムルールの中の「Block AI Scrapers and Crowler rule」というのが連動して「ON」になりました。

cloudflare WAF

これで様子を見ていると、むむむ、何か引っかかりました!

cloudflare security log

どうやら OpenAI のGPTBotがブロックされたようです!

ワンクリックでボットをブロックできるというのは本当でした!

ところで、ボットやクローラーがブロックされてしまうと、グーグルのクローラーまでブロックされちゃうんじゃないの?と心配になりますよね?

確認したところ、Google Search Console や Page Speed Insights など問題なく動作していましたよ!

google search console
google page speed insights

Cloudflare を使う上での注意点

無料でも、ここまでの機能がある Cloudflare はとても魅力的ではあるのですが、いくつかのデメリット、あるいは注意点があるようです。

Cloudflare がダウンしてしまうリスク

当然ですが、Cloudflare がダウンしてしまうとたとえサーバーが動いていてもサイトにアクセスができなくなってしまいます。もちろんサーバーがダウンしてしまうリスクもゼロではありませんので、サイトダウンのリスクは増えます。

特にCloudflare は過去に約2時間、主要な19のデータサーバーが障害を起こし、Discordなど複数のサイトが影響を受けて、アクセスできなかったことがあります。

Cloudflare outage on June 21, 2022

WordPressのキャッシュ事故のリスク

Cloudflare にはページルールという設定があります。(下記参照)

ページ ルール

ページ ルールを使用すると、特定の URL でトリガーする Cloudflare 設定をコントロールできます。URL ごとにトリガーされるページ ルールは 1 個のみであるため、ページ ルールを優先度順に並べ替えて、URL パターンを可能なかぎり具体的にすると便利です。

出典:Page Rules

この設定を適切に行なっていないといわゆるキャッシュ事故(キャッシュするつもりのないコンテンツをキャッシュしてしまい配信してしまう事故)が発生してしまうようです。一例では、ありますが、本来管理者権限でないとアクセスできないコンテンツ(管理画面)が誰からも見えてしまったりする可能性があります。

そのため、ページルールとして、「管理用のディレクトリー(/wp-admin/)以下はキャッシュしない」といった設定をしておくことが必要です。なお、無料プランではページルールは3つまでしか設定ができません。

cloudflare page rule

参考:WordPressサイトでCloudflareを使う時に最適なページルール設定

正規のユーザーからのアクセスがブロックされる可能性

筆者が書いたスクレイピングソフトからのアクセスが、ボットとしてブロックされるのではなく、ブラウザ整合性チェックによってブロックされたことは正規のユーザーからのアクセスでもブロックされる可能性があることを意味しています。特に古いバージョンのブラウザーからのアクセスはその危険性が高いです。

アクセスする側の問題と言えばそうなのですが「突然ブロックされた」と感じるユーザーは多いでしょうし、クレームに発展することも十分考えられます。

適切な運用をするための知識が必要

Cloudflare は専門的な知識がなくても、比較的簡単に設定などができてしまいます。

しかし、上述したページルールの設定やキャッシュの設定などは、ある程度の知識がないと適切な設定を行なうことができません。

Cloudflare の評判は?

最後にCloudflareの口コミや評判を下記のサイトで見てみました。

Cloudflareの評判を全42件のユーザーレビュー・口コミで紹介

かなり評価が高いのがわかります。

ただし、パフォーマンスについては個々のサイトのサーバーの設定あるいはサーバーとの相性があるように思います。無料トライアルもありますので、まずは実際に試してみるのがよいでしょう。

今すぐチェック=>Webサイト高速化・セキュリティ対策 Cloudflare(クラウドフレア) 1ヵ月無料トライアル登録

Follow me!

BASE FOOD の焼きそばがまずい?その真相は?

BASEFOOD YAKISOBA
BASE FOOD の BASE PASTA シリーズのカップ焼きそばがまずいという口コミがあるようです。
定期購入している筆者が実際に食してみました!