よくある質問

AdobeFlash

Webサイト上のSWFファイルのインデックス作成と検索のサポートについて説明する、よくある質問ページです。

SWFファイルに関してよく寄せられる質問は、次のとおりです。

SWFファイルはいつクロールされ、インデックス化されますか?

次の例のように、HTMLページ上のembedまたはobjectタグに含まれるSWFファイルは、クロールされ、インデックス化されます。

<embed src="Flash-file-URL">  
 
<object>  
<param name=movie value="Flash-file-URL">  
</object> 

ファイルURLをエントリポイントとしてリストした場合も、SWFファイルが認識されます。

インデックスを作成する複数のURLエントリポイントの追加を参照してください。

SWFファイルのインデックスを作成するには、何をする必要がありますか。

SWFファイルをクロールしてインデックスを作成するには、コンテンツタイプ​Adobe Flash Movies(Settings > Crawling > Content Types)を選択します。

FlashファイルがHTMLドキュメント内の<embed>タグまたは<object>タグから参照されている限り、テキストのインデックスが作成され、ファイルに一覧表示されているすべてのURLがクロールされます。

ファイルが<embed>タグまたは<object>タグから参照されていない場合は、SWFファイルをHTMLドキュメントの<a href=...>タグまたはURLエントリポイントとしてリストできます。

インデックスを作成する複数のURLエントリポイントの追加を参照してください。

SWFファイルはどのように認識されますか。

SWFファイルは、次のMIMEタイプで識別されます。

application/x-shockwave-flash

また、ファイル拡張子が.swfである場合、SWFファイルはapplication/octet-stream"またはtext/plain MIMEタイプでも認識されます。

サーバーの設定が正しくない場合、SWFファイルに異なるMIMEタイプが使用されている可能性があります。 SWFファイルのクロールおよびインデックス付けに問題がある場合は、サーバー設定を確認してください。

SWFファイルのインデックスの作成方法

SWFファイル内のテキストは、含まれるHTMLページ内の<body>テキストと同じようにインデックス化されます。 埋め込みSWFファイル内のテキストが検索結果によって見つかった場合、結果は、SWFファイルではなく、含まれるHTMLページに実際にリンクされます。 これにより、SWFファイルは正しいコンテキストで表示されます。

SWFファイルに「ムービーの読み込み」アクションとしてURLが含まれている場合、参照先のSWFファイル内のテキストのインデックスは、含まれるHTMLページの一部として作成されます。

SWFファイルに「URLの取得」アクションとしてURLが含まれている場合、HTML <a href=...>参照がクロールされ、後でインデックス付けされるのと同じように、URLはクロールされ、後でインデックス付けされます。

SWFファイルがURLエントリポイントとしてリストされている場合、SWFファイルのテキストのインデックスは1つのページとして作成されます。 エントリポイントSWFからテキストを検索した結果は、含まれるHTMLページではなく、ムービーに直接リンクします。

インデックスを作成する複数のURLエントリポイントの追加を参照してください。

SWFファイルは1ページと見なされますか。

いいえ。SWFファイルは、含まれるHTMLページの一部と見なされます。 SWFファイルに含まれるすべての「ムービーを読み込み」URLも、含まれるHTMLページの一部と見なされます。 したがって、HTMLページから参照されるSWFファイルは、アカウントのページ合計の「ページ」としてカウントされません。

SWFファイルがURLエントリポイントとしてリストされている場合、そのSWFファイルと、そのSWFファイルにリストされているすべての「ムービーを読み込む」URLが、アカウントのページ合計で1つの「ページ」としてカウントされます。

個々のSWFファイルのインデックス付けを防ぐ方法を教えてください。

SWFファイルのインデックスが作成されないようにするには、含まれるHTMLドキュメントにrobotsのmetaタグ(<meta name="ROBOTS" content="NOINDEX">)または<noindex>タグを追加します。 つまり、<embed>タグまたは<object>タグを含むドキュメントです。

また、robots metaタグ(<meta name="ROBOTS" content="NOFOLLOW">)を使用して、SWFファイルに含まれる次のURLを防ぐこともできます。 含まれるHTMLドキュメントが次のように無効になっている場合、SWFファイルで「Get URL」アクションとしてリストされているURLは実行されません。

SWFファイルのインデックスがWebサイトで作成されないようにする方法を教えてください。

SWFインデックスを無効にするには、コンテンツタイプ​Adobe Flash Movies(Settings > Crawling > Content Types)の選択を解除します。

URL Masksを使用してSWFファイルのインデックスを無効にすることもできます。

インデックス部分へのURLマスクの追加を参照してください….

SWFインデックスを無効にするには、次のURLマスクのいずれかを入力します。

  • exclude *.swf (正規式を使用しない場合)
  • exclude regexp ^.*\.swf$ (正規式を使用している場合)

正規式を参照してください。

Webサイトで中国語、日本語、韓国語のSWFファイルを検索できないのはなぜですか。

サイト検索/マーチャンダイジングは、AdobeFlashで作成されたSWFファイルからUTF-8を取得します。 UTF-8には、言語の表示は含まれません。 コンテンツタイプ​Adobe Flash Movies(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、SWFファイルで使用する言語を指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

古いSWFファイルでも文字セットが指定されていません。 SWFコンテンツタイプ​Adobe Flash Movies(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、SWFファイルで使用する文字セットを指定する必要があります。

一般検索

サイト検索/マーチャンダイジングが、Webサイトを訪問する顧客がどのようにして探しているものを見つけるかを支援するかを説明する、よくある質問ページです。

一般検索に関するよくある質問は次のとおりです。

検索機能に関してよく寄せられる質問は次のとおりです。

サイト検索/マーチャンダイジングを使用するには、ソフトウェアをインストールする必要がありますか。

いいえ。これは、サイト検索/マーチャンダイジングの主な利点です。 エンジンは、プロ仕様のアプリケーションで、当社の高パフォーマンスサーバー上でのみホストされ、保守されます。 これにより、他の検索ソリューションよりも使いやすくなります。 必要なのは、Webサイトの顧客が検索に参加できるように、ページに少量のHTMLコードを追加することだけです。 サイト検索/マーチャンダイジングは残りすべてを処理します。

サイトがページ数の上限を超えるとどうなりますか。

お客様のサイトを訪問者が中断することなく検索できるように、お客様の検索サービスを提供し続けています。 Webサイトがページ数の上限を超えているかどうかを確認するには、完全なインデックスのステータスまたはライブログを確認します。

完全なインデックスについてを参照してください。

ライブまたはステージングされた完全なインデックスログの表示を参照してください….

週別レポートの送信先の電子メールアドレスを変更する方法を教えてください。

毎週のレポートは、アクティブな各アカウントの所有者に送信されます。 電子メールアドレスは、Settings/My Profile/Personal Information​をクリックして変更できます。 複数のアクティブな検索アカウントがある場合は、すべてのニュースレターが新しいアドレスに送信されます。

個人ユーザー情報の設定を参照してください。

サイト検索/マーチャンダイジングに関する顧客情報はどの程度安全ですか。

サイト検索/マーチャンダイジングは、安全で、迅速、安定していて、使いやすいものです。 Cookieを(必要に応じて)使用してアドビの製品を使用するように強制されることはありません。また、パスワードなどの機密情報は、後でブラウザーから取得できるURLリンクに置かれません。

顧客情報のプライバシーについて教えてください。

Adobeは、お客様と訪問者のプライバシーを守ることに取り組んでいます。 Adobeプライバシーセンターを参照してください。

検索結果ページに独自のバナー広告を表示できますか。

はい。検索結果の外観とコンテンツを制御します。 Webサイトの検索結果テンプレート内に、LinkExchangeやSmartClicksなど、独自のバナー交換ネットワークへのリンクを作成できます。 訪問者が行ったヒットは、バナー交換アカウントに正しく配分されます。

サイトの検索結果をカスタマイズできますか。

はい。これは、サイト検索/マーチャンダイジング専用の機能です。 アドビの高度なテンプレート技術とHTMLに関する知識が少ないので、検索結果の表示方法を正確に制御できます。

検索テンプレートタグを参照してください。

自社のサーバーとSite Search/Merchandisingサーバーのトランジションは、お客様にとって完全にシームレスで目に見えないものです。 HTMLがわからない場合や、カスタムテンプレートを作成する時間がない場合は、AdobeのプロフェッショナルなWeb開発者の社内チームが作成する、魅力的で使いやすい様々なテンプレートから選択できます。

サイトで検索している顧客を確認できますか。

はい。過去2か月間、Webサイト上の訪問者が検索した場合の検索統計を保持します。 これらの統計は、製品メニューの「レポート」でいつでも確認できます。 検索レポートは、Webサイトで訪問者が何を探しているかに関する重要な情報を提供します。 この情報を使用して、デザインを改善したり、サイト検索/マーチャンダイジングエンジンを調整して訪問者に適したサービスを提供したりできます。

どのコンテンツタイプ(PDF、テキスト、Flash、MP3、Microsoft Office)のインデックスを作成し、検索するかを制御する方法を教えてください。

PDFドキュメント、プレーンテキストドキュメント、Flashムービー、MP3ファイル、またはMicrosoft Officeドキュメント内のテキストのインデックス作成と検索を有効または無効にするように、アカウントを簡単に設定できます。

これらの設定はStaged Content Typesページで制御されます。

コンテンツタイプについて」を参照してください。

ASP、JSP、PHP、CFM、またはPerlベースのコンテンツを使用して動的に生成されるWebページはサポートされていますか。

静的または動的に生成されるHTML Webページのインデックスは、データベースから作成されたページやその他のバックエンドプロセスを含めて作成されます。 ブラウザーに表示されるHTMLコードはインデックス付けされているので、これらのバックエンドアーキテクチャがHTMLページに結果をもたらす限り、WebサイトでSite Search/Merchandisingを使用できます。

検索ロボットは、Account Settingsで指定されたWebサイトアドレスの最初のページから始めてWebサイトをクロールし、ページ間のリンクをたどります。

アカウント設定の指定」を参照してください。

検索ロボットがWebサイトのすべてのページをクロールしてインデックスを作成すると、検索エンジンを使用してサイトを検索できます。 つまり、動的に生成されたドキュメントが他のページのリンクと共にWebサイトに組み込まれている場合でも、検索ロボットは動的なコンテンツをクロールしてインデックスを付けることができます。

Webサイトコンテンツのクロールおよびインデックス作成が完了すると、Webサイトのユーザーは、インデックス作成されたコンテンツ内の情報を検索できます。

同義語を使用してサイトの検索結果を改善する方法を教えてください。

訪問者が検索クエリに関連するページを見つける場合は、同義語を使用できます。

例えば、サイトで販売する商品の価格リストを含むページがあるとします。 ただし、サイト検索/マーチャンダイジングによって提供される検索レポートを調べると、顧客の検索内で「コスト」、「費用」、「料金」、「有料」という語が必要になることがわかります。 これらの単語は、検索結果に価格リストページを表示しません。 DictionariesのAdd Synonyms機能を使用すると、これらの語句をすべて同義語として指定でき、顧客は、どの検索語句を使用しているかに関係なく、価格のリストを見つけることができます。

辞書についてを参照してください。

検索結果の順序を管理できますか。

はい。高度な関連性インターフェースを使用すると、特定の検索クエリに対して返されるページを制御できます。 この機能は、顧客が特定の単語をクエリしたときに特定のページを確実に表示したい場合に役立ちます。

新しいmetaタグフィールドの追加」を参照してください。

検索結果ページの言語を変更できますか。

はい。サイト検索/マーチャンダイジングテンプレートは、選択した言語を使用し、Webサイトの外観に合わせた結果ページを作成できるという点で柔軟性があります。

テンプレートは、テキスト、標準のHTMLタグ、および検索結果を表示するために定義された特別なタグの組み合わせで構成されます。 顧客が検索を行うと、検索ロボットはテンプレートを読み、標準のHTMLタグを使用してテキストを出力し、特殊なテンプレートタグに基づいて結果のリンクを挿入します。

検索テンプレートタグを参照してください。

結果の言語を変更する場合は、テンプレートに表示される英語のテキストを編集できます。

プレゼンテーションまたはトランスポートテンプレートの編集」を参照してください。

Adobeのお客様ログインに複数のサイトを設定できますか。

はい。1人のAdobeの顧客ログインを使用して、様々なWebサイトに対して異なる検索エンジンを管理できます。 「アカウント」の下のアカウントを選択して管理します。

使用する別のアカウントの選択」を参照してください。

複数のドメインを検索できますか。

はい。URL Entrypointsを使用して、複数のドメインへのアクセスを設定できます。 自分が所有する追加のドメインのURL入力ポイントを指定します。 所有していないドメインのインデックスを作成する権限が必要です。

URL入力ポイントについてを参照してください。

サイトを個別のセクションに細分して、顧客がこれらの領域のいずれかを個別に検索できるようにするか、またはサイト全体を検索できるようにするか。

はい。「コレクション」機能が追加され、Webサイトの特定の領域を検索して、探しているものをすばやく見つけることができます。

コレクションについてを参照してください。

例えば、製品の販売情報に関連するURLのコレクションや、サポートサービスに関連するURLのコレクションを検索できます。 コレクションを設定すると、ユーザーに対して、コレクションのドロップダウンリストまたはチェックボックスのグループが表示されます。

Webサイトの一部を検索対象から除外する方法を教えてください。

はい。URLマスクを指定して、インデックス作成に含める、または除外するWebサイトページを決定します。 URLマスクは、Webサイトのページを検索結果に表示するかどうかを決定します。

URLマスクについてを参照してください。

URLマスクスクリプトについてを参照してください。

個々のWebページの一部が検索されないようにするために、ページの一部をインデックス付けから除外できます。 テキストを<noindex>タグと</noindex>タグで囲みます。 このメソッドは、検索からナビゲーションテキストを除外する場合に役立ちます。

サポートされる文字セットは何ですか。

Webページでは、通常、次のようなメタタグを使用して文字セットを指定します。

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">

サイト検索/マーチャンダイジングエンジンは、今日インターネットで使用されているすべての一般的な文字セットを使用して、Webページのインデックスを適切に作成します。 次の文字セットがサポートされています。

アラビア語(ISO-8859-6)

中国語(繁体字;Big5)

日本語(Shift_JIS)

アラビア語(Windows-1256)

中国語(繁体字;EUC-TW)

ロシア語(KOI8-R)

バルト語(ISO-8859-4)

キリル言語(ISO-8859-5)

南ヨーロッパ語(ISO-8859-3)

バルト語(Windows-1257)

キリル語(Windows-1251)

トルコ語(ISO-8859-9)

中央ヨーロッパ語(ISO-8859-2)

ギリシャ語(ISO-8859-7)

トルコ語(Windows-1254)

中央ヨーロッパ語(Windows-1250)

ギリシャ語(Windows-1253)

Unicode(UTF-8)

中国語(ISO-2022-CN)

ヘブライ語(ISO-8859-8)

US-ASCII(us-ascii)

中国語(ISO-2022-CN-EXT)

ヘブライ語(Windows-1255)

西ヨーロッパ語(ISO-8859-1)

中国語(簡体;EUC-CN)

日本語(EUC-JP)

西ヨーロッパ語(ISO-8859-15)

中国語(簡体;GB2312)

日本語(ISO-2022-JP)

西ヨーロッパ語(Windows-1252)

中国語(簡体;GBK)

日本語(ISO-2022-JP-1)

西ヨーロッパ語(x-mac-roman)

中国語(簡体;HZ-GB-2312)

日本語(ISO-2022-JP-2)

上記に記載されていない文字セットについては、テクニカルサポートにお問い合わせください。

Webサイトを変更または更新した場合はどうなりますか。

Webサイトのコンテンツを変更した後、フルインデックスまたはインクリメンタルインデックスを実行できます。 Site search/merchandisingは、変更されたWebサイトのコンテンツをダウンロードし、インデックスを作成します。 インデックス作成が完了すると、ユーザーは新しいコンテンツを検索できます。 また、特定の時間と特定の日にサイトの自動インデックスをスケジュールすることもできます。

ライブまたはステージングされたWebサイトの完全なインデックスの実行を参照してください….

ライブまたはステージングされたWebサイトの増分インデックスの実行を参照してください….

ライブWebサイトのフルインデックススケジュールの設定」を参照してください。

ライブWebサイトの増分インデックススケジュールの設定」を参照してください。

サイトのインデックスを自動的に作成できますか。

はい。サイトの自動インデックスを毎日スケジュールできます。

毎日の自動インデックス作成の他に、サイトの一部を頻繁に変更する場合に、インデックスを増分的に作成するように選択できます。 自動インデックスがスケジュールされている日には、インデックスの実行時刻を制御できます。 また、必要に応じていつでも手動でサイトインデックスを開始できます。

ライブWebサイトのフルインデックススケジュールの設定」を参照してください。

ライブWebサイトの増分インデックススケジュールの設定」を参照してください。

私は自分のウェブサイトでパスワードを使う。 引き続きサイト検索/マーチャンダイジングを使用できますか。

HTTP基本認証を使用してWebサイトの特定の部分をパスワードで保護する場合、Site Search/Merchandisingでサイトのインデックスを作成する際に使用できる領域とパスワードを指定できます。

Webサイトの必要な領域にアクセスするためのパスワードの追加を参照してください….

httpsまたはセキュアサーバーコンテンツのクロールおよびインデックス作成をサポートしていますか?

はい。安全なサーバー(https)上のコンテンツをクロールしてインデックスを作成できます。

サイト検索/マーチャンダイジングは、Webサイトのrobots.txtファイルに従いますか。

はい。ロボット排他プロトコルは準拠しています。 検索ロボットは、robots.txtファイルがWebサイトに存在する場合、そのファイルを調べます。 robots.txtファイルで、サイトのクロールからすべてのロボットが除外される場合、サイト検索/マーチャンダイジングロボットも除外されます。 サイト検索/マーチャンダイジングロボットのみがサイトをクロールできるようにするには、robots.txtファイルの内容を次のように設定します。

User-agent: Atomz/1.0 
Disallow:
User-agent: * 
Disallow: /

WebロボットとRobots Exclusion Protocolについて詳しくは、次を参照してください。

https://www.robotstxt.org/orig.html

顧客が最も正確な検索結果を得られるように、Webサイトの特定の部分は頻繁に更新する必要があります。 増分インデックスはこの問題に役立ちますか?

はい。このシナリオは、サイト検索とマーチャンダイジングを容易にするためにインクリメンタルインデックス機能が構築されたものです。 増分インデックスの主な利点は、会社がWebサイト内で動的に変化する部分に頻繁にインデックスを作成できる点です。 この機能により、「最大1分間」の精度で検索結果が表示されます。

ライブまたはステージングされたWebサイトの増分インデックスの実行を参照してください….

ライブWebサイトの増分インデックススケジュールの設定」を参照してください。

動的に生成されるWebページは、製品カタログや在庫管理システムなどのバックエンドデータベースでサポートされていますか。

静的または動的に生成されるHTML Webページ。データベースから作成されたページや、その他のバックエンドプロセスのインデックスが作成されます。 ブラウザーが閲覧するHTMLコードのインデックスが作成されるので、バックエンドのデータベース情報がHTMLページに結果を出す限り、Webサイトでの検索とマーチャンダイジングを使用できます。

検索ロボットは、Account Settingsで指定されたWebサイトアドレスの最初のページから始めてWebサイトをクロールし、ページ間のリンクをたどります。

アカウント設定の指定」を参照してください。

検索ロボットがWebサイトのすべてのページをクロールしてインデックスを作成すると、検索エンジンを使用してサイトを検索できます。 つまり、動的に生成されたドキュメントが他のページのリンクと共にWebサイトに組み込まれている場合、検索ロボットは動的データベースコンテンツのクロールやインデックス付けを引き続き行うことができます。

Webサイトコンテンツのクロールおよびインデックス作成が完了すると、Webサイトのユーザーは、インデックス作成されたコンテンツ内の情報を検索できます。

タイトル、メタ説明、メタドキュメントタグ、メタキーワード情報タグのいずれかまたはすべてに限定された、フルコンテンツ検索や、より狭いトピックベースの検索を簡単に有効にできます。 メタデータ定義を使用して、実際の検索結果に製品の画像などのカスタム表示フィールドを作成することもできます。

新しいmetaタグフィールドの追加」を参照してください。

スクリプトまたはプログラムを使用してサイトのインクリメンタルインデックスを開始できますか。

はい。スクリプトやプログラムを使用してWebサイトの増分インデックスを開始したり、サーバーにpingを送信してコンテンツが変更または更新されるたびにサイトのインデックスを作成したりできます。

スクリプトインデックスについて」を参照してください。

機能の実装

Search&Promoteでの様々な機能の実装について説明する、よくある質問ページです。

WebサイトでのSearch&Promoteでの機能の実装に関して、次のよくある質問があります。

ビジネスルールが実行されないのはなぜですか。

バナーを表示する場合はビジネスルールを設定し、表示する結果と表示順序を決定する場合はビジネスルールを設定します。 また、ファセット内の項目の位置、および特定の検索に使用するテンプレートを設定することもできます。
ビジネスルールの順序を変更して、プレゼンテーションテンプレートで実行する順序を変更します。 ビジネスルールは、定義された順に実行されます。つまり、ルールの注文番号が高いほど、後でプロセス内で実行され、以前のルールが切り捨てられます。 ルールの順序を変更するには、「ビジネスルール」ページの表の「順序」列に新しい番号を入力します。

ビジネスルールについてを参照してください。

インデックスのスケジュール設定、インデックスの開始中にエラーが発生し、ステージングされたインデックスの開始中に問題が発生するのはなぜですか?

インデックスを生成するとき、インデックスがいっぱいか増分かに関係なく、インデックスクロールの状態情報がリアルタイムで表示されます。 例えば、開始時間、経過時間、およびインデックス作成プロセス中に発生したエラーを表示できます。 最後のインデックスの状態に関する情報も表示されます。 この情報を使用して、インデックスエラーが発生した場合のトラブルシューティングを行います。

インデックスのスケジュールについては、「ライブWebサイトの完全なインデックススケジュールの設定」および「ライブWebサイトの増分インデックススケジュールの設定」を参照してください。

ステージングされたインデックスの開始については、ライブまたはステージングされたWebサイトの完全なインデックスの実行を参照してください。またはライブまたはステージ化されたWebサイトの増分インデックスを実行中…

インデックスサイズの制限が許可された境界を超えています。 この問題が発生する理由と修正方法

Webサイトは増加傾向にあり、時間の経過とともに、追加されたドキュメントやWebページがより多くSearch&Promoteで「発見」されます。 最終的には、アカウントがインデックスサイズの制限を超える可能性があります。このような場合は、URL Mask​を使用することを検討してください。 この機能を使用すると、不要またはインデックス付けする必要のないインデックスクロールからドキュメントおよびWebページを非表示にし、インデックスサイズを小さくできます。 別の方法として、テクニカルサポートに連絡して、インデックスサイズの上限をアカウント内で大きく設定することもできます。

URLマスクについてを参照してください。

何をすべきか不明な場合は、テクニカルサポートにお問い合わせください。 インデックスサイズに影響を与える変数は他にも多数あり、調整するとアカウントの請求にも影響する場合があります。

国際

中国語(簡体字および繁体字)、日本語、韓国語などのマルチバイトアジア言語を含む、19以上の言語のインデックス作成と検索のサポートについて、よくある質問のページです。

言語と文字セットに関するよくある質問は次のとおりです。

検索クエリの文字セットエンコーディングを制御するコントロール

検索アカウントの「Web フォーム」セクションには、検索機能をWebサイトに追加するために使用するサンプルの検索フォームが含まれています。 この検索フォームコードを見ると、次のような行が見つかります。

<input type=hidden name="sp_f" value="iso-8859-1">

このコード行は、西ヨーロッパ言語の一般的なエンコードであるiso-8859-1で入力クエリがエンコードされていることを検索エンジンに知らせます。 この設定は、製品メニューに移動して​Settings/My Profile/Personal Information​をクリックすると変更できます。 Personal Informationページの​Character Encoding​ドロップリストで、新しいエンコーディングを選択します。

個人ユーザー情報の設定を参照してください。

検索フォームのsp_f行を編集して、Webページのエンコーディング値を手動で変更することもできます。 検索フォームのsp_f値は、表示されるページの文字セットエンコーディングと一致する必要があることに注意してください。

エンコードが検索クエリのエンコードと一致するページのみが検索されますか。

デフォルトではnoです。 Webサイトページが文字セットエンコーディングを正しく識別できる限り、ページで複数のエンコーディングが使用されている場合でも、検索クエリのエンコーディングとページのエンコーディングの間で必要な変換が行われます。

検索結果ページに使用されるエンコーディング

アカウントの文字セットエンコーディングによって、結果テンプレートのデフォルトのエンコーディングが決まります。

個人ユーザー情報の設定を参照してください。

HTMLテンプレートで文字セットを指定する方法についても詳しく説明しています。

検索テンプレートタグを参照してください。

Unicode、UTF-8、エンコードされたページでサイト検索/マーチャンダイジングを使用できますか。

はい。ただし、UTF-8などのUnicode文字セットは、ページに書き込まれる言語を判断するのに十分な情報を提供しません。 これらのページを正しく検索するには、言語を指定する必要があります。 ドキュメントの言語を決定するには、次の順序で情報を処理します。

  • サーバーからドキュメント用に配信されるコンテンツ言語HTTPヘッダー。

  • ドキュメントの<HEAD>セクションのMETA要素(例:META HTTP-EQUIV="Content-Language" Content="ja_JP")。

  • <HTML>タグのLANG属性(例:<HTML LANG="ja_JP">)。

サーバーがContent-Language HTTPヘッダーを配信するように設定されておらず、ドキュメントに言語のMETA要素も<HTML>タグのlanguage属性も含まれていない場合は、メタデータインジェクションを使用して適切な言語を指定できます。

フィールドインジェクション定義の追加を参照してください。

Webサイトで中国語、日本語、韓国語のPDFファイルを検索できないのはなぜですか。

サイト検索/マーチャンダイジングは、言語の表示のないAdobe PDFファイルからUTF-8を取得します。 PDF Documents(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、PDFファイルで使用する言語を指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

Webサイトで中国語、日本語、韓国語のSWFファイルを検索できないのはなぜですか。

サイト検索/マーチャンダイジングは、言語を示さないAdobeFlashで作成されたAdobeFlashムービーファイルからUTF-8を取得します。 コンテンツタイプ​Adobe Flash Movies(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、SWFファイルで使用する言語を指定する必要があります。

Flashバージョン4以前のSWFファイルでは、ファイル内の文字の文字セットは指定されません。 コンテンツタイプ​Adobe Flash Movies(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、SWFファイルで使用する文字セットを指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

Webサイトで中国語、日本語、韓国語のMicrosoft Officeファイルを検索できないのはなぜですか。

サイト検索/マーチャンダイジングは、言語を示さないMicrosoft Officeファイル(Microsoft Word、Microsoft Excel、およびMicrosoft PowerPoint)からUTF-8を取得します。 コンテンツタイプ​Microsoft Office Files ( Settings > Crawling > Content Types )を選択した場合は、メタデータインジェクションを使用して、Microsoft Officeファイルで使用する言語を指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

Webサイトで中国語、日本語、韓国語のMP3ファイルを検索できないのはなぜですか。

コンテンツタイプ​Text in MP3 Music Files(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、MP3ファイルのエンコードに使用する文字セットを指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

Webサイトの.txtファイルのインデックスを正しく作成するために、特別な作業を行う必要がありますか。

コンテンツタイプ​Text Documents(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、.txtファイルのエンコードに使用する文字セットを指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

Netscape 4.7以前のバージョンで検索結果に中国語、日本語、韓国語のフォントが表示されるのはなぜですか。

アカウントで、デフォルトのテンプレート、使いやすいテンプレートの1つ、またはこれらのテンプレートに基づくテンプレートを使用する場合、フォント面としてArialまたはHelveticaを指定するフォントタグが含まれている可能性があります。 例: <font face="arial, helvetica" size="+1">Netscape 4.7以前では、ArialまたはHelveticaのフォントを使用すると、中国語、日本語、韓国語は表示されません。 face属性を削除するか、フォントを中国語、日本語、韓国語に適したフォントに置き換えます。

低ページ数

インデックス付けページ数が少ないことに関連する一般的な問題を説明する、よくある質問ページです。

インデックス付けページ数の少なさに関するよくある質問は次のとおりです。

インデックス・ログを調べたか?

インデックスログには、サイト検索/マーチャンダイジングロボットがWebサイトのインデックスの作成時に収集する詳細情報が含まれます。 ログには、クロールされたリンクのリストが含まれ、発生したエラーが含まれます。 インデックスログを調べるのが、Webサイトのすべてのページのインデックスが作成されない理由を判断する開始に最適な場所です。

ライブまたはステージングされた完全なインデックスログの表示を参照してください….

ライブまたはステージングされたインクリメンタルインデックスログの表示を参照してください….

URLに入力ミスがあるか。

長いURLをHTMLフォームに入力すると、誤字が1つ以上発生する場合があります。 URLにスペースを含めないでください。 また、一部のWebサーバーでは、URLを大文字と小文字が区別される方法で処理することに注意してください。

製品メニューで、Settings/Crawling/URL Entrypoints​をクリックします。 Staged URL Entrypointsページで、以下を確認します。

  • URLに誤字はありません。
  • URL内の文字はすべて正しい大文字と小文字を使用しています。
  • URLにスペース文字は含まれません。

URLの入力ポイントをテストするには、URLをコピーしてWebブラウザーに貼り付け、Webサイトが表示されるかどうかを確認します。 表示されない場合は、URLパスで誤りがないことを再度確認してください。

URL入力ポイントについてを参照してください。

エントリポイントWebページには、Webサイト上の他のページへのリンクが含まれていますか。

サイト検索/マーチャンダイジングロボットは、顧客と同じようにWebサイトをクロールします。ページ間のリンクをたどる方法。 検索ロボットがサイト上の他のページを見つけてインデックスを付けるには、エントリポイントWebページにリンクが存在する必要があります。

インデックスを作成する複数のURLエントリポイントの追加を参照してください。

Webサイト上の他のページへのリンクはJavaScriptに埋め込まれていますか。

JavaScriptを使用して他のページにリンクするロールオーバーアクションやメニューなど、Webサイト上で高度なナビゲーションテクニックを使用できます。 ただし、サイト検索/マーチャンダイジングロボットは、JavaScriptに埋め込まれたリンクをたどることはできません。

この問題の解決に使用できる解決策の1つは、JavaScriptを含むHTML内の他のページへの非表示のリンクを配置することです。 Webサイトのユーザーにはこれらのリンクは表示されませんが、検索ロボットはリンクを見つけてクロールします。 ページの下部の</body>タグの直前に、非表示のタグを配置できます。 次のようになります。

<a href="/mydir/mypag1.html"></a> 
<a href="/mydir/mypag2.html"></a>

もう1つの解決策は、Webサイト上の追加ページのURLをクロールとインデックスのエントリポイントとしてリストすることです。 次に示すように、URLの先頭はhttps://にします。

https://www.mydomain.com/mydir/mypag1.html 
https://www.mydomain.com/mydir/mypag2.html

インデックスを作成する複数のURLエントリポイントの追加を参照してください。

Webページ上のHTMLタグのシーケンスが無効ですか。

HTMLの仕様では、<html><head>および<body>タグがHTMLドキュメント内の特定のシーケンスに従っている必要があります。 すべてのWebページのタグは、次の順序で記述する必要があります。

<html> 
<head> 
...  
<i>head tags go here</i> ... 
</head> 
<body> 
...  
<i>body tags go here</i> ... 
</body> 
</html>

HTMLタグの順序が正しくない場合、サイト検索/マーチャンダイジングロボットはWebページの解析とインデックス作成を適切に行えません。 次の例は、適切な順序にないタグの例です。

<body> 
<head> 
...  
<i>head tags are here</i> ... 
</head> 
...  
<i>body tags are here</i> ... 
</body>

この場合、<html><head>および<body>タグをWebページ上の適切なシーケンスに配置します。

Webページで、HTMLコメントタグの形式が正しくない。

Webページでは、無効なHTMLコメントを注意深く確認し、修正してください。

HTMLの仕様では、HTMLコメントは<!--で始まり-->で終わる必要があります。 形式が間違っているコメントを見過ごすと、サイト検索/マーチャンダイジングロボットがWebページ上のタグを誤って解析する原因になります。 コメントが不適切に形成されると、サイト検索/マーチャンダイジングロボットが、解析が必要な他の重要なタグを見逃す原因となる場合があります。 Webページの<body>タグの直前にあるコメントに気をつけてください。

次に、適切に形成されたコメントの例を示します。

<!-- This HTML comment is OK. -->

次の例は、コメントの形式が不適切な場合を示しています。

<!- This HTML comment is improperly formed. -> 
<! This HTML comment is also improperly formed. >

Webページに、別のドメインのページへのリンクが含まれているか。

多くの場合、Webサイトは、Webサーバー上に実際に存在し、異なるドメインアドレスを持つページで構成されます。 例えば、メインWebサイトのアドレスが次のような場合、

https://www.mydomain.com/

また、Webサイトの別のドメインに次のようなページがある場合もあります。

https://www.otherdomain.com/

デフォルトでは、サイト検索/マーチャンダイジングロボットは、メインのドメイン以外のドメインのリンクをたどりません。 ただし、検索アカウントに追加のエントリポイントを設定すると、複数のドメインのインデックスを簡単に作成できます。

製品メニューで、Settings/Crawling/URL Entrypoints​をクリックします。 サイト追加の「メインWebサイトエントリポイント」URL。 次に、サイトページを含む他のドメインにURL入力ポイントを追加します。 例えば、メインURL入力ポイントを次のように設定します。

https://www.mydomain.com/

次のサイトURL入力ポイントを追加します。

https://www.otherdomain.com/

URLに仮想ドメインサービスを使用しているか。

仮想ドメインサービス(「ドメインリダイレクトサービス」とも呼ばれます)を使用して、顧客がWebサイトにアクセスするためのより優れたURLを提供している可能性があります。 例えば、Webサイトの実際のアドレスが次のような場合、

https://www.myispdomain.com/~myname/mywebpages/

ただし、仮想ドメインサービスを使用すると、顧客が次のアドレスでサイトにアクセスできるようになります。

https://myname.adomain.com/

または

https://adomain.com/myname/

デフォルトでは、サイト検索/マーチャンダイジングロボットは、メインのドメイン以外のドメインのリンクをたどりません。 ただし、検索アカウントに追加のエントリポイントを設定すると、複数のドメインのインデックスを簡単に作成できます。

製品メニューで、Settings/Crawling/URL Entrypoints​をクリックします。 「追加main webサイトURL」エントリポイントは、サイトの仮想ドメイン名を示します。 次に、Webサイトが実際に存在するドメインにエントリポイントを追加します。

例えば、メインURLのエントリポイントを次のように設定します。

https://myname.adomain.com/

次のWebサイトのURL入力ポイントを追加します。

https://www.myispdomain.com/~myname/mywebpages/

Webページでメタ更新タグを使用しているか。

多くのWebサイトには、次のような<head>...</head>タグの間にメタ更新タグを含むフロントページがあります。

<meta http-equiv="Refresh" content="0;URL=https://www.adomain.com/apath/afile.html">

状況によっては、サイト検索/マーチャンダイジングロボットがメタ更新URLに従ってWebサイトのコンテンツのインデックスを作成できない場合があります。 この問題は、追加のエントリポイントを設定することで、簡単に対処できます。

製品メニューで、Settings/クロール/URL Entrypoints​をクリックします。 meta refreshタグのURL追加への別のエントリポイント。

Webページでメタロボットタグを使用しているか。

Webページでは、メタロボットタグを使用して、Webサイトを定期的にクロールしようとするWebロボットを制御する場合があります。 Webページの<head>...</head>タグの間にメタロボットタグが表示されるのは、次のタグのようです。

<meta name="robots" content="noindex, nofollow">

サイト検索/マーチャンダイジングロボット自体がWebロボットなので、meta robotsタグの指示に従います。 このように他のロボットを除外すると、サイト検索/マーチャンダイジングロボットも除外されます。

WebロボットとRobots Exclusion Protocolについて詳しくは、次を参照してください。

https://www.robotstxt.org/orig.html

Webサイトでインデックスを作成するWebページのメタロボットタグを削除または変更します。

Webサイトでロボットの除外ファイルを使用しているか。

Webサイトには、robots.txtという名前のページがあり、すべてのまたは特定のロボットがこのページをクロールできない場合があります。 Webサイトにrobots.txtファイルがあるかどうかを確認するには、次に示すように、最上位ドメインの直下にあるファイルを探します。

https://www.yourdomain.com/robots.txt

robots.txtファイルの内容は次のテキストのようになります。

User-agent: * 
Disallow: /

サイト検索/マーチャンダイジングロボットはWebロボットなので、robots.txtファイルの指示に従います。サイト検索/マーチャンダイジングロボットは除外されます。 この問題を回避するには、robots exclusionファイル(robots.txt)を編集し、サイト検索/マーチャンダイジングロボットが次のようにWebサイトをクロールし、インデックスを作成できるようにします。

User-agent: Atomz/1.0 
Disallow: 
 
User-agent: * 
Disallow: /

Microsoft Office

Webサイト上のMicrosoft® Officeファイルのインデックス作成と検索のサポートについて説明するよくある質問ページです。

Microsoft Officeファイルに関するよくある質問は次のとおりです。

Microsoft Officeファイルでインデックスを作成する

Microsoft Wordファイル、Microsoft Excelファイル、およびMicrosoft PowerPointファイルの完全な内容のインデックスが作成されます。

Microsoft Wordファイルの次の部分のインデックスが作成されます。

  • タイトル
  • キーワード
  • 件名(説明)
  • テキストベースのコンテンツ
  • 他のドキュメントへのハイパーリンク

Microsoft Excelファイルの次の部分のインデックスが作成されます。

  • タイトル
  • キーワード
  • 件名(説明)
  • セル内のテキスト
  • セル内の数式の値

Microsoft PowerPointファイルの次の部分のインデックスが作成されます。

  • タイトル
  • キーワード
  • 件名(説明)
  • 各スライドのテキスト

Microsoft Officeファイルでインデックスを作成しない

Microsoft Officeファイルに含まれるグラフィック、または含まれるグラフィックの一部であるテキストは、インデックス付けされません。 カスタムプロパティ定義は、メタデータとしてインデックス化されません。 PowerPointファイル内のヘッダーやフッターなど、特殊フィールド内のテキストにも、インデックスが作成されないものがあります。

Microsoft Officeファイルのインデックスの作成方法を、HTMLページとは異なる方法で指定します。

検索ロボットがMicrosoft OfficeファイルとHTMLファイルをインデックス付けする方法の違いは、各HTMLファイルが1ページずつで、1つのMicrosoft Officeファイルが数百ページを表すことがある点です。 このため、各ページはMicrosoft Officeファイル内で検索アカウントの下にある個別のページとしてカウントされます。

Microsoft OfficeファイルのインデックスがWebサイト上で作成されないようにする方法

検索ロボットでMicrosoft Officeファイルのクロールとインデックス作成を行わない場合は、コンテンツタイプ​Microsoft Office Files(Settings > Crawling > Content Types)の選択を解除します。

URL Masksを使用して、Microsoft Officeファイルのインデックス作成を無効にすることもできます。

次のURLマスクを入力します。

正規式を使用しない場合

  • exclude *.doc
  • exclude *.xls
  • exclude *.ppt

正規式を使用している場合

  • regexp ^を除外します。*\.doc$
  • regexp ^を除外します。*\.xls$
  • regexp ^を除外します。*\.ppt$

インデックス部分へのURLマスクの追加を参照してください….

正規式を参照してください。

MP3

Webサイト上のMP3音楽ファイルのインデックス作成と検索のサポートについて説明する、よくある質問ページです。

MP3ファイルに関するよくある質問を次に示します。

MP3ファイルは、いつクロールされ、インデックス化されますか?

MP3ファイルは、2つの方法のいずれかでクロールおよびインデックス付けされます。 最も一般的な方法は、HTMLファイル内のアンカーhrefタグを使用する方法です。

<a href="MP3-file-URL"></a>

2つ目の方法は、MP3ファイルのURLをURL入力ポイントとして入力する方法です。

URL入力ポイントについてを参照してください。

サイト上のMP3ファイルをクロールしてインデックスを作成するには、何をする必要がありますか。

アカウントのMP3クロールおよびインデックスをアクティブにするには、製品メニューで​Settings/Crawling/Content Types​をクリックします。 Staged Content Typesページで​Text in MP3 Music Files​を選択します。

コンテンツタイプについて」を参照してください。

MP3ファイルはどのように認識されますか?

MP3ファイルは、「audio/mpeg」のMIMEタイプで認識されます。

MP3ファイル内のインデックスとは何ですか。

MP3ファイルには、必要に応じて少量のテキスト情報が格納されます。 この情報には、アルバム名、アーティスト名、曲のタイトル、曲のジャンル、リリース年度、コメントが含まれます。 この情報は、ファイルの最後(TAGと呼ばれる場所)に保存されます。 TAG情報を含むMP3ファイルのインデックスは、次のように作成されます。

  • 曲のタイトルは、HTMLページのタイトルのように扱われます。
  • コメントは、HTMLページに対して定義された説明と同様に扱われます。
  • このジャンルは、HTMLページに対して定義されたキーワードと同様に扱われます。
  • アーティスト名、アルバム名およびリリース年は、HTMLドキュメントの本文と同様に扱われます。

MP3ファイルは1ページとしてカウントされますか。

はい。Webサイト上でクロールされ、インデックスが作成された各MP3ファイルは、1ページとしてカウントされます。

個々のMP3ファイルのインデックスを作成しない方法を教えてください。

MP3ファイルにリンクするアンカータグを<nofollow>タグと</nofollow>タグで囲みます。 検索ロボットは、これらのタグ間のリンクをたどりません。

もう1つの方法は、MP3ファイルのURLを除外マスクとして追加することです。

URLマスクについてを参照してください。

URLマスクスクリプトについてを参照してください。

MP3ファイルのインデックスが作成されないようにする方法

アカウントのMP3インデックスを制御する最も簡単な方法は、Staged Content Typesページで​Text in MP3 Music Files​を選択解除することです。

クロールおよびインデックスを作成するコンテンツタイプの選択を参照してください。

また、URLマスク機能を使用して、ファイル拡張子によるMP3インデックス作成を無効にすることもできます。 これを行うには、製品メニューで​Settings > Crawling > URL Masks​をクリックします。 次のいずれかのマスクを入力します。

アカウントが

次のURLマスクを入力します

正規式を使用しない

exclude *.mp3

正規式を使用

regexp ^を除外します。*\.mp3$

正規式を参照してください。

サイトで中国語、日本語、韓国語のMP3ファイルを検索できないのはなぜですか。

中国語、日本語、または韓国語のMP3ファイルを検索するには、製品メニューで​Settings/Crawling/Content Types/Text in MP3 Music Files​をクリックします。 次に、Settings/Metadata/Injections​をクリックし、MP3ファイルのエンコードに使用する文字セットを指定します。

クロールおよびインデックスを作成するコンテンツタイプの選択を参照してください。

インジェクションについてを参照してください。

PDF

Webサイト上のPDFファイルのインデックス作成と検索のサポートについて、よくある質問ページを紹介します。

PDFファイルに関してよく寄せられる質問は次のとおりです。

PDFファイル内のインデックス付けの対象

PDFファイルの完全なコンテンツのインデックスが作成されます。 PDFファイルの次の部分のインデックスが作成されます。

  • タイトル
  • キーワード
  • 件名(説明)
  • テキストベースのコンテンツ

PDFファイルでインデックスが作成されないのは何ですか。

PDF目次、ファイル内のグラフィック、または含まれるグラフィックの一部であるテキストのインデックスは作成されません。

インデックス付きPDFファイルはどのようにカウントされますか?

複数のページを含むPDFを含む各PDFファイルは、1つのドキュメントとしてカウントされます。

検索結果にPDFアイコンを表示できますか。

はい。テンプレート内で<search-if-link-extension>タグを使用して、PDFアイコンや他のグラフィックやテキストを検索結果に含めます。

<search-results> 
  ... 
  <search-if-link-extension value=".pdf"> 
    <img src="/search/i/pdficon.gif"> 
  </search-if-link-extension> 
  ... 
</search-results>

PDFアイコンは、検索結果が非常に大きい可能性のあるPDFファイルにリンクしていることを顧客が知るのに役立ちます。 モデム経由でWebサイトにアクセスしているユーザーやモバイルデバイスからアクセスしているユーザーは、ファイルサイズが問題になる場合があります。

検索結果はPDFファイル内の特定のページにリンクできますか。

はい。スマートリンクテンプレートタグ(<search-smart-link>...</search-smart-link>)を使用すると、検索結果を含む最初のPDFページをクリックして開くことができます。

スマートリンクを使用するには、テンプレートの検索結果セクションにある<search-link>...</search-link>タグを<search-smart-link>...</search-smart-link>タグに置き換えます。 顧客は、スマートリンクタグによって生成されるリンクをクリックすると、検索クエリに関連する最初のPDFページに移動します。

メモ

この機能を使用するには、お客様が最新バージョンのAdobe AcrobatまたはAdobe AcrobatReaderを使用する必要があります。このバージョンには、ハイライトプラグインと外部ウィンドウハンドラ(EWH)プラグインが含まれている必要があります。 また、WebブラウザーでNetscape Navigator用のAdobe Acrobatプラグイン(このNetscape Navigatorプラグインを受け入れる任意のブラウザーを使用できます)またはInternet Explorer 4.0以降用のAcrobatActiveXコントロールを使用する必要があります。

検索テンプレートタグを参照してください。

PDFファイルのインデックスがWebサイト上で作成されないようにするには、どうすればよいですか。

検索ロボットでPDFファイルのクロールとインデックス作成を行わない場合は、コンテンツタイプ​PDF Documents(Settings > Crawling > Content Types)の選択を解除します。

また、URL Masksを使用してPDFインデックスを無効にすることもできます。

インデックス部分へのURLマスクの追加を参照してください….

PDFインデックスを無効にするには、次のURLマスクのいずれかを入力します。

  • exclude *.pdf (正規式を使用しない場合)
  • exclude regexp ^.*\.pdf$ (正規式を使用している場合)

正規式を参照してください。

Webサイトで中国語、日本語、韓国語のPDFファイルを検索できないのはなぜですか。

サイト検索/マーチャンダイジングは、言語を示さないPDFファイルからUTF-8を取得します。 コンテンツタイプ​PDF Documents(Settings > Crawling > Content Types)を選択した場合は、メタデータインジェクションを使用して、PDFファイルで使用する言語を指定する必要があります。

フィールドインジェクション定義の追加を参照してください。

ページが多すぎます

インデクサーが実際のページ数よりも多くページをカウントした理由と、各ケースでの解決策の一部を説明する、よくある質問ページです。

Webサイトがページ数の制限を下回っていることが確実で、インデクサーが上限に達したと伝える場合は、考えられる解決策について、次のような一般的な質問と回答を確認する必要があります。

様々なインデックス・ログを調べましたか。

インデックスログには、Webサイトのインデックスの作成時にサイト検索/マーチャンダイジングロボットによって収集された詳細情報が含まれます。 ログには、クロールされたすべてのリンクのリストと発生したエラーが含まれます。 インデックスを作成するページを判断する際には、インデックスログを調べるのが開始に最適な場所です。

ライブまたはステージングされた完全なインデックスログの表示を参照してください….

ライブまたはステージングされたインクリメンタルインデックスログの表示を参照してください….

ライブまたは…のスクリプト増分インデックスログの表示を参照してください。.

ライブまたはステージングされたインデックスの再生成ログの表示を参照してください。.

ライブまたはステージングされたWebサイトの再ランク付けインデックスログの表示を参照してください。

CGIプログラムのインデックスをWebサイト上で作成しているか。

CGIプログラムはURLパラメーターを使用するので、インデクサーが複数の「偽」のURLをクロールする場合があります。 サイト検索/マーチャンダイジングがCGIプログラムを読み取り、その後にCGIパラメータを含むURLを読み取る場合、クロールおよびインデックス付けされているページの数倍が検索インデックスに役立ちません。 一般的なCGIパラメーターは、?または&文字のURLで表示されます。

URLマスク機能を使用して、CGIプログラムのインデックスが作成されないようにマスクできます。 URLプレフィックスをマスクしたり、正規式を使用してCGIスクリプトをマスクしたりできます。

URLマスクについてを参照してください。

URLマスクスクリプトについてを参照してください。

正規式を参照してください。

サーバーでディレクトリの参照が有効になっているか。

Webサーバーでディレクトリの参照が有効になっていて、特定のディレクトリにindex.htmlファイルが存在しない場合、そのディレクトリへのアクセスによって、そのディレクトリ内のファイルの一覧が表示されます。 通常、ページの上部には、NameLast modifiedSize​などをクリックするだけで、リストを異なる方法で並べ替えるためのリンクがあります。 通常、これらはサイト検索/マーチャンダイジングインデックスログに?M=Aなどの文字を含むURLとして表示されます。 サイト検索/マーチャンダイジングインデクサーはリンクとしてこれらに従うので、複数の「疑似」URLにインデックスを付ける可能性があります。

通常、適切に設計されたWebサイトでは、すべてのディレクトリにインデックスファイルが存在するか、インデックスファイルのないディレクトリのディレクトリ参照が無効になっています。 幸いにも、ページを変更できない場合や、サーバ側のディレクトリリストを無効にできない場合は、これらの「偽」のURLを隠す簡単な方法があります。

このタスクを実行するには、Settings > Crawling > URL Masks​をクリックします。 <a0追加/>という文字を含むURLをマスクするマスク。 ?このタスクは、次の正規式マスクを入力して行うことができます。

exclude regexp ^.*\?.*$

マスクを作成した後は、Webサイトのインデックスを再作成してください。

ライブまたはステージングされたWebサイトの完全なインデックスの実行を参照してください….

ライブまたはステージングされたWebサイトの増分インデックスの実行を参照してください….

Webサイトにフォーラムまたはニュースグループがありますか。

Webサイト上でフォーラムまたはニュースグループをクロールする場合、様々な表示オプションや並べ替えオプションで、URLをフォローしている可能性があります。 つまり、同じページのインデックスが複数回作成されます。

通常、フォーラムやニュースグループには独自の検索エンジンが付属しています。 その場合は、URL Masksを使用して、サイト検索/マーチャンダイジングでフォーラムをマスクできます。

製品メニューで、Settings/Crawling/URL Masks​をクリックします。 Staged URL Masksページで、URLマスクを除外としてURLを入力して、フォーラムをマスクします。

インデックス部分へのURLマスクの追加を参照してください….

マスクを作成した後は、必ずWebサイトのインデックスを再作成してください。

ライブまたはステージングされたWebサイトの完全なインデックスの実行を参照してください….

ライブまたはステージングされたWebサイトの増分インデックスの実行を参照してください….

WebサイトにPDFファイルまたはMicrosoft Officeファイルがありますか。

WebサイトにPDFファイルまたはMicrosoft Officeファイルがある場合、少数のファイルのインデックスサイズで多くのページがカウントされることに気づくかもしれません。 インデックスが作成されるページ数がドキュメント数よりも多いのは、PDFまたはMicrosoft Officeファイル内の各ページが個別のページとしてカウントされるためです。

製品メニューで、Index/Full Index/Live Index​をクリックします。 Full Indexページで、「Count All Pages」を選択し、「Full Index Now」をクリックして合計ページ数を表示します。 PDFファイルまたはMicrosoft Officeファイルのインデックスを作成しない場合は、Settings > Crawling > Content Types​でこのコンテンツタイプを無効にできます。

ライブまたはステージングされたWebサイトの完全なインデックスの実行を参照してください….

コンテンツタイプについて」を参照してください。

複数のURL入力ポイントがあるか。

サイト検索/マーチャンダイジングロボットは、指定されたURLエントリポイントからクロールを開始し、見つかったすべてのリンクをそのドメイン内のすべてのコンテンツにたどります。 URL入力ポイントを多数指定した場合は、大量のページがクロールされる可能性があります。

追加ドメインのエントリポイントドキュメントのヘッダーで、Robots Exclusion Protocolのnofollowタグを使用します。

<html> 
<head> 
<meta name="robots" content="nofollow"> 
</head>

上記のコードは、サイト検索/マーチャンダイジングロボットに対して、ページのコンテンツのインデックスを作成するように指示していますが、追加のページへのリンクに従わないように指示しています。

WebロボットとRobots Exclusion Protocolについて詳しくは、次を参照してください。

https://www.robotstxt.org/orig.html

追加のドメインのページのソースにアクセスできない場合は、複数のURL入力ポイントを削除できます。 これにより、ユーザーが検索できるコンテンツを望むドメインに対してのみインデックス作成のアクティビティを制限できます。

URL入力ポイントについてを参照してください。

サイト検索/マーチャンダイジングの内部バイト数または時間制限を超えたか。

[フルインデックスステータス]画面で、アカウントが上限に達したかどうかを確認します。 インデックスのサイズが許可されている値を超えている、または許容される値より長い時間がかかったとステータスレポートに表示された場合、Webサイトのインデックスは完全には作成されません。 このエラーを修正して、Webサイトのページを適切にカバーし、数えることができます。

サイト検索/マーチャンダイジングサーバーを保護するため、バイトと時間には内部的な制限があります。 クロールされたファイルが非常に大きい場合、またはサイト検索/マーチャンダイジングが到達しようとしているサーバーの速度が遅い場合にのみ、これらの制限に達します。

時間制限に達した場合は、サーバーがオンラインであることを確認し、後でインデックスを再試行します。 バイト数の制限に達した場合は、インデックスログを表示して、クロールされたファイルを確認します。 異常に大きい? 次のいずれかのメッセージが表示された場合は、テクニカルサポートにお問い合わせください。

このページ