Web クローラーを設定するためのベストプラクティス

この記事では、を使用する際のベストプラクティスを説明します robots.txt および sitemap.xml Adobe Commerceのファイル(設定およびセキュリティを含む)。 これらのファイルは、web クローラー(通常は検索エンジンロボット)が web サイト上のページをクロールする方法を指示します。 これらのファイルを設定すると、サイトのパフォーマンスと検索エンジンの最適化を向上させることができます。

NOTE
これらのベストプラクティスは、ネイティブのAdobe Commerce ストアフロントを使用するプロジェクトにのみ当てはまります。 他のストアフロントソリューション(Adobe Experience Manager、ヘッドレスなど)を使用するAdobe Commerce プロジェクトには適用されません。

影響を受ける製品とバージョン

サポートされているすべてのバージョン (件中):

  • クラウドインフラストラクチャー上のAdobe Commerce
  • Adobe Commerce オンプレミス

クラウドインフラストラクチャー上のAdobe Commerce

デフォルトのAdobe Commerce プロジェクトには、1 つの web サイト、ストア、ストアビューを含む階層が含まれています。 より複雑な実装の場合は、の追加の web サイト、ストア、ストア表示を作成できます。 マルチサイト ストアフロント。

単一サイトのストアフロント

を設定する際は、次のベストプラクティスに従います robots.txt および sitemap.xml 単一サイトのストアフロントのファイル:

  • プロジェクトでを使用していることを確認します。 ece-tools バージョン 2002.0.12 以降。

  • 管理アプリケーションを使用したのコンテンツを robots.txt ファイル。

    note tip
    TIP
    自動生成されたを表示 robots.txt ストアのファイル() <domain.your.project>/robots.txt.
  • Admin アプリケーションを使用して、 sitemap.xml ファイル。

    note important
    IMPORTANT
    クラウドインフラストラクチャプロジェクト上のAdobe Commerceの読み取り専用ファイルシステムにより、次を指定する必要があります pub/media ファイルを生成する前のパス。
  • カスタム Fastly VCL スニペットを使用して、サイトのルートからにリダイレクトします pub/media/ 両方のファイルの場所:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path ~ \"^/?sitemap.xml$\" ) { set req.url = \"pub/media/sitemap.xml\"; } else if (req.url.path ~ \"^/?robots.txt$\") { set req.url = \"pub/media/robots.txt\";}"
    }
    
  • Web ブラウザーでファイルを表示して、リダイレクトをテストします。 例: <domain.your.project>/robots.txt および <domain.your.project>/sitemap.xml. リダイレクトを設定したルートパスを使用しており、別のパスを使用していないことを確認してください。

INFO
参照: サイトマップと検索エンジンロボットを追加 詳しい手順については、を参照してください。

マルチサイトのストアフロント

クラウドインフラストラクチャー上にAdobe Commerceを 1 つ実装するだけで、複数のストアを設定して実行できます。 参照: 複数の web サイトまたはストアを設定.

の設定に関する同じベストプラクティス robots.txt および sitemap.xml のファイル 単一サイトのストアフロント は、次の 2 つの重要な違いがあり、マルチサイトのストアフロントに適用されます。

  • 次のことを確認します robots.txt および sitemap.xml ファイル名には、対応するサイトの名前が含まれます。 例:

    • domaineone_robots.txt
    • domaintwo_robots.txt
    • domainone_sitemap.xml
    • domaintwo_sitemap.xml
  • 少し変更したカスタム Fastly VCL スニペットを使用して、サイトのルートからにリダイレクトします pub/media サイト全体での両方のファイルの場所:

    code language-vcl
    {
      "name": "sitemaprobots_rewrite",
      "dynamic": "0",
      "type": "recv",
      "priority": "90",
      "content": "if ( req.url.path == \"/robots.txt\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) { set req.url = \"pub/media/\" re.group.1 \"_robots.txt\"; }} else if ( req.url.path == \"/sitemap.xml\" ) { if ( req.http.host ~ \"(domainone|domaintwo).com$\" ) {  set req.url = \"pub/media/\" re.group.1 \"_sitemap.xml\"; }}"
    }
    

Adobe Commerce オンプレミス

Admin アプリケーションを使用して、 robots.txt および sitemap.xml ボットが不要なコンテンツのスキャンやインデックス作成を行わないようにするファイル( 検索エンジンロボット)に設定します。

TIP
オンプレミス環境の場合、ファイルを書き込む場所は、Adobe Commerceのインストール方法によって異なります。 ファイルをに書き込みます。 /path/to/commerce/pub/media/ または /path/to/commerce/media(インストールに適した方)。

セキュリティ

管理パスをユーザーに公開しない robots.txt ファイル。 管理者パスを公開すると、サイトハッキングの脆弱性が生じ、データが失われる可能性があります。 からの管理者パスの削除 robots.txt ファイル。

を編集する手順は、次のとおりです robots.txt 管理パスのすべてのエントリをファイルに保存して削除します。詳しくは、以下を参照してください マーケティングユーザーガイド / SEO と検索/検索エンジンロボット.

TIP
サポートが必要な場合は、 Adobe Commerce サポートチケットを送信.

追加情報

recommendation-more-help
754cbbf3-3a3c-4af3-b6ce-9d34390f3a60