クロールメニューの設定日およびURLマスク、パスワード、コンテンツタイプ、接続、フォーム定義、URLエントリポイントを使用します。
ほとんどのWebサイトには、顧客が最初に訪問する主なエントリポイントまたはホームページが1つあります。 この主なエントリポイントは、検索ロボットがインデックスクロールを開始するURLアドレスです。 ただし、Webサイトに複数のドメインまたはサブドメインがある場合や、サイトの一部がプライマリエントリポイントからリンクされていない場合は、「 URLエントリポイント」を使用して、さらにエントリポイントを追加できます。
指定された各URLエントリポイントの下にあるすべてのWebサイトページにインデックスが付けられます。 URLのエントリポイントとマスクを組み合わせて、Webサイトのどの部分にインデックスを付けるかを正確に制御できます。 URLエントリポイント設定の効果がユーザーに表示されるようにするには、Webサイトのインデックスを再構築する必要があります。
メインエントリポイントは通常、インデックスを作成して検索するWebサイトのURLです。 この主なエントリポイントは、「アカウントの設定」で設定します。
アカウント設定の指定を参照してください。
メインURLエントリポイントを指定した後、必要に応じて、順番にクロールする追加のエントリポイントを指定できます。 ほとんどの場合、メインエントリポイントの下のページからリンクされていないWebページに対して、追加のエントリポイントを指定します。 次の例に示すように、Webサイトが複数のドメインにまたがる場合は、追加のエントリポイントを指定します。
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
各エントリポイントは、次の表に示す1つ以上のスペース区切りキーワードで修飾します。 これらのキーワードは、ページのインデックス作成方法に影響を与えます。
重要:特定のキーワードをエントリポイントから、および互いにスペースで区切るようにします。コンマは有効な区切り文字ではありません。
キーワード |
説明 |
---|---|
noindex |
エントリポイントページのテキストのインデックスを作成せず、ページのリンクをたどる場合は、
次の例に示すように、キーワードをエントリポイントからスペースで区切ります。 このキーワードは、
|
nofollow |
エントリポイントページのテキストにインデックスを付けるが、ページのリンクをたどる必要がない場合は、
次の例に示すように、キーワードをエントリポイントからスペースで区切ります。 このキーワードは、
|
form |
エントリポイントがログインページの場合、
|
コンテンツタイプについても参照してください。
インデックスコネクタについても参照してください。
Webサイトに複数のドメインまたはサブドメインがあり、それらをクロールする場合、「 URL入力ポイント」を使用してURLを追加できます。
WebサイトのメインURLエントリポイントを設定するには、「アカウントの設定」を使用します。
アカウント設定の指定を参照してください。
インデックスを作成する複数のURLエントリポイントを追加するには
製品メニューで、Settings > Crawling > URL Entrypointsをクリックします。
URL EntrypointsページのEntrypointsフィールドに、1行に1つのURLアドレスを入力します。
(オプション) Add Index Connector Configurationsドロップダウンリストで、インデックス作成のエントリポイントとして追加するインデックスコネクタを選択します。
ドロップダウンリストは、1つ以上のインデックスコネクタ定義を既に追加している場合にのみ使用できます。
インデックスコネクタ定義の追加を参照してください。
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
URLマスクは、検索ロボットのインデックスをドキュメント化するWebサイトとインデックス化しないWebサイトを決定するパターンです。
URLマスクの結果が顧客に表示されるように、サイトのインデックスを再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
次の2種類のURLマスクを使用できます。
URLマスクを含めると、検索ロボットはマスクのパターンに一致するドキュメントのインデックスを作成します。
URLマスクを除外は、検索ロボットに対し、一致するドキュメントのインデックスを作成するよう指示します。
検索ロボットは、リンクからWebサイト内のリンクに移動する際にURLを検出し、それらのURLに一致するマスクを探します。 最初の一致によって、そのURLをインデックスに含めるか除外するかが決まります。 検出されたURLと一致するマスクがない場合、そのURLはインデックスから破棄されます。
エントリポイントURL用のURLマスクを含めるが、自動的に生成されます。 この動作により、Webサイト上で検出されるすべてのドキュメントのインデックスが作成されます。 また、Webサイトを「離れる」リンクも便利に廃止されます。 例えば、インデックス付きのページがhttps://www.yahoo.comにリンクする場合、検索ロボットはそのURLにインデックスを付けません。これは、エントリポイントURLによって自動的に生成されたインクルードマスクと一致しないからです。
指定する各URLマスクは、別々の行に記述する必要があります。
マスクは、次のいずれかを指定できます。
https://www.mydomain.com/products.html
のような完全パス。
https://www.mydomain.com/products
のような部分パス。
https://www.mydomain.com/*.html
のようにワイルドカードを使用するURL。
正規表現(上級ユーザー向け)。
マスクを正規表現にするには、キーワードregexp
をマスクタイプ(exclude
またはinclude
)とURLマスクの間に挿入します。
以下に、単純な除外URLマスクの例を示します。
exclude https://www.mydomain.com/photos
この例は除外URLマスクなので、パターンに一致するドキュメントのインデックスは作成されません。 パターンは、検出された項目(ファイルとフォルダーの両方)を照合し、https://www.mydomain.com/photos.html
とhttps://www.mydomain.com/photos/index.html
(両方とも除外URLと一致)のインデックスが作成されないようにします。 /photos/
フォルダー内のファイルのみを一致させるには、次の例のように、URLマスクの末尾にスラッシュを含める必要があります。
exclude https://www.mydomain.com/photos/
次の除外マスクの例では、ワイルドカードを使用しています。 「.pdf」拡張子を持つファイルを検索ロボットが見過ごすよう指示します。 検索ロボットは、これらのファイルをインデックスに追加しません。
exclude *.pdf
単純なインクルードURLマスクは次のとおりです。
include https://www.mydomain.com/news/
URLエントリポイントからの一連のリンクを介してリンクされたドキュメント、またはURLエントリポイント自体として使用されるドキュメントのみがインデックス付けされます。 ドキュメントのURLを含むURLマスクとしてリストするだけで、リンクが解除されたドキュメントのインデックスは作成されません。 リンクされていないドキュメントをインデックスに追加するには、「URLエントリポイント」機能を使用します。
URLエントリポイントについてを参照してください。
マスクを含めると除外マスクは一緒に使用できます。 除外URLマスクを作成し、除外URLマスクを使用して除外されたページを1つ以上含めることで、Webサイトの大部分をインデックス作成から除外できます。 例えば、エントリポイントURLが次のような場合、
https://www.mydomain.com/photos/
検索ロボットは、/photos/summer/
、/photos/spring/
および/photos/fall/
(photos
フォルダーから各ディレクトリに少なくとも1つのページへのリンクがあると仮定)の下にあるすべてのページをクロールし、インデックス化します。 この動作は、リンクパスによって、検索ロボットが/summer/
、/spring/
、/fall/
内のドキュメントを検索でき、フォルダーとフォルダーURLが、エントリポイントURLによって自動的に生成されるインクルードマスクに一致するために発生します。
次の例に示すように、除外URLマスクを含む/fall/
フォルダー内のすべてのページを除外するように選択できます。
exclude https://www.mydomain.com/photos/fall/
または、次のURLマスクを使用して、インデックスの一部に/photos/fall/redleaves4.html
のみを選択的に含めます。
include https://www.mydomain.com/photos/fall/redleaves4.html
上記の2つのマスクの例が意図したとおりに動作するように、次のようにインクルードマスクが最初にリストされます。
include https://www.mydomain.com/photos/fall/redleaves4.html
exclude https://www.mydomain.com/photos/fall/
検索ロボットは、リストに表示されている順序で指示に従うので、検索ロボットは最初に/photos/fall/redleaves4.html
を含み、次に/fall
フォルダー内の残りのファイルを除外します。
手順が次のように逆の方法で指定されている場合:
exclude https://www.mydomain.com/photos/fall/
include https://www.mydomain.com/photos/fall/redleaves4.html
その場合、/photos/fall/redleaves4.html
は含まれません。
最初に表示されるURLマスクは、マスク設定の後半に表示されるURLマスクよりも常に優先されます。 また、検索ロボットがURLを含むマスクとURLを除外マスクに一致するページを検出した場合は、常に、最初にリストされたマスクが優先されます。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
各インクルードマスクを1つ以上のスペースで区切られたキーワードで修飾でき、一致するページのインデックス作成方法に影響します。
コンマは、マスクとキーワードの区切り文字としては無効です。スペースのみを使用できます。
キーワード |
説明 |
---|---|
noindex |
URLマスクに一致するページのテキストのインデックスを作成しないが、一致するページのリンクをたどる場合は、
上記の例では、検索ロボットが、
10.
|
nofollow |
URLマスクに一致するが、一致するページのリンクをたどる必要がないページのテキストのインデックスを作成する場合は、
10.
|
regexp |
インクルードマスクと除外マスクの両方に使用します。 前に
検索ロボットは、
次の正規表現URLマスクを除外する場合: 検索ロボットは、
次のURLマスクを含める場合: 検索ロボットは、拡張子が「.swf」のファイルからのすべてのリンクに従います。 10.
正規表現を参照してください。 |
URL Masksを使用して、Webサイトのどの部分にクロールおよびインデックスを作成するかを定義できます。
インデックス作成の後にドキュメントが含まれているかどうかをテストするには、「 URLマスクのテスト」フィールドを使用します。
URLマスクの結果が顧客に表示されるように、サイトのインデックスを再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
Webサイトのインデックス部分にURLマスクを追加する、またはインデックス部分にURLマスクを追加しない場合
製品メニューで、Settings > Crawling > URL Masksをクリックします。
(オプション) URL Masksページの「Test URL Masks」フィールドに、WebサイトのテストURLマスクを入力し、「Test」をクリックします。
「 URL Masks 」フィールドに、 include
(クロールしてインデックスを作成するWebサイトを追加する場合)と入力するか、 exclude
(Webサイトがクロールしてインデックスを作成するのを防ぐ場合)と入力し、URLマスクアドレスを入力します。
1行につき1つのURLマスクアドレスを入力します。 例:
include https://www.mycompany.com/summer
include https://www.mycompany.com/spring
exclude regexp .*\.xml
exclude https://www.mycompany.com/fall
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
日付マスクを使用して、ファイルの有効期間に基づいて検索結果に含めるファイルや除外するファイルを指定できます。
URLマスクの結果が顧客に表示されるように、サイトのインデックスを再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
次の2種類の日付マスクを使用できます。
日付マスク(「include-days」と「include-date」)を含める
指定した日付以前の日付マスクインデックスファイルを含めます。
日付マスクを除外(「exclude-days」と「exclude-date」)
指定した日付以前の日付のインデックスファイルを除外します。
デフォルトでは、ファイルの日付はメタタグ情報から決まります。 Metaタグが見つからない場合、検索ロボットがファイルをダウンロードした際にサーバから受信したHTTPヘッダからファイルの日付を決定する。
指定する各日付マスクは、別々の行に記述する必要があります。
マスクは、次のいずれかを指定できます。
https://www.mydomain.com/products.html
のような完全パスhttps://www.mydomain.com/products
のような部分パスhttps://www.mydomain.com/*.html
を使用するURLregexp
を挿入します。「日付を含む」と「日付を除外」の両方で、次の2つの方法のいずれかで日付を指定できます。 マスクは、一致するファイルが指定した日付以前に作成された場合にのみ適用されます。
日数。 例えば、日付マスクが次のような場合、
exclude-days 30 https://www.mydomain.com/docs/archive/)
指定した日数がカウントされます。 ファイルの日付が日付に達する前またはそれ以前の場合、マスクが適用されます。
YYYY-MM-DD形式の実際の日付。 例えば、日付マスクが次のような場合、
include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
一致したドキュメントの日付が指定した日付以前の場合は、日付マスクが適用されます。
以下に、単純な除外日付マスクの例を示します。
exclude-days 90 https://www.mydomain.com/docs/archive
これは除外日付マスクなので、パターンに一致するファイルはインデックス化されず、90日以前になります。 ドキュメントを除外すると、テキストはインデックス化されず、そのファイルからはリンクが追跡されません。 ファイルは事実上無視されます。 この例では、ファイルとフォルダーの両方が指定したURLパターンに一致する場合があります。 https://www.mydomain.com/docs/archive.html
とhttps://www.mydomain.com/docs/archive/index.html
の両方がパターンに一致し、90日以上前の場合はインデックスが作成されません。 /docs/archive/
フォルダー内のファイルのみを一致させるには、次のように日付マスクの末尾にスラッシュを含める必要があります。
exclude-days 90 https://www.mydomain.com/docs/archive/
日付マスクはワイルドカードでも使用できます。 次のexcludeマスクは、2011-02-15以前の日付の「.pdf」拡張子を持つファイルを検索ロボットに見渡すように指示します。 検索ロボットは、一致するファイルをインデックスに追加しません。
exclude-date 2011-02-15 *.pdf
「日付マスクを含める」は似ていますが、一致したファイルのみがインデックスに追加されます。 次のインクルード日付マスクの例は、Webサイトの/docs/archive/manual/
領域内の古いファイルのテキストのインデックスを検索ロボットに対して作成するように指示します。
include-days 0 https://www.mydomain.com/docs/archive/manual/
マスクを含めると除外マスクは一緒に使用できます。 例えば、除外日付マスクを作成し、URLマスクを含む除外ページを1つ以上含めることで、Webサイトの大部分をインデックス作成から除外できます。 エントリポイントURLが次の場合:
https://www.mydomain.com/archive/
検索ロボットは、/archive/summer/
、/archive/spring/
および/archive/fall/
(archive
フォルダーから各フォルダーに少なくとも1つのページへのリンクがあると仮定)の下にあるすべてのページをクロールし、インデックス化します。 この動作は、リンクパスによって、検索ロボットが/summer/
、/spring/
、/fall/
の各フォルダー内のファイルを「検索」でき、フォルダーURLがエントリポイントURLによって自動的に生成されたインクルードマスクに一致するために発生します。
URLエントリポイントについてを参照してください。
アカウント設定の指定を参照してください。
/fall/
フォルダー内の90日を超えるページをすべて除外する場合は、次のように日付マスクを除外します。
exclude-days 90 https://www.mydomain.com/archive/fall/
次の日付マスクを使用して、インデックスの一部に/archive/fall/index.html
のみを(古いファイルの数に関係なく、0日以上のファイルが一致する)選択的に含めることができます。
include-days 0 https://www.mydomain.com/archive/fall/index.html
上記の2つのマスクの例が意図したとおりに機能するには、次のように、インクルードマスクを最初にリストする必要があります。
include-days 0 https://www.mydomain.com/archive/fall/index.html
exclude-days 90 https://www.mydomain.com/archive/fall/
検索ロボットは指定された順序で方向に従うので、検索ロボットはまず/archive/fall/index.html
を含み、次に/fall
フォルダー内の残りのファイルを除外します。
手順が次のように逆の方法で指定されている場合:
exclude-days 90 https://www.mydomain.com/archive/fall/
include-days 0 https://www.mydomain.com/archive/fall/index.html
その場合、マスクで指定されていても/archive/fall/index.html
は含まれません。 最初に表示される日付マスクは、後でマスク設定に表示される日付マスクよりも常に優先されます。 また、検索ロボットで「含む日付マスク」と「除外する日付マスク」の両方に一致するページが検出された場合は、最初にリストされたマスクが常に優先されます。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
各インクルードマスクを1つ以上のスペースで区切られたキーワードで修飾でき、一致するページのインデックス作成方法に影響します。
コンマは、マスクとキーワードの区切り文字としては無効です。スペースのみを使用できます。
キーワード |
説明 |
---|---|
noindex |
インクルードマスクで指定された日付以前の日付のページ上のテキストのインデックスを作成しない場合は、
キーワードとマスクは必ずスペースで区切ってください。 上記の例では、検索ロボットが、拡張子が「.swf」で、10日以前のファイルからのすべてのリンクに従うように指定しています。 ただし、これらのファイルに含まれるすべてのテキストのインデックス作成は無効になります。 古いファイルのテキストがインデックス付けされていないが、それらのファイルのすべてのリンクに従っていることを確認する必要がある場合があります。 そのような場合は、除外日付マスクを使用する代わりに、「noindex」キーワードを含む日付マスクを使用します。 |
nofollow |
インクルードマスクで指定された日付以前の日付のページでテキストのインデックスを作成するが、一致するページのリンクをたどる必要がない場合は、
キーワードとマスクは必ずスペースで区切ってください。 10.
|
server-date |
インクルードマスクと除外マスクの両方に使用します。 検索ロボットは、通常、日付マスクを確認する前に、すべてのファイルをダウンロードして解析します。 この動作は、一部のファイルタイプで、ファイル自体に日付を指定できるために発生します。 例えば、HTMLドキュメントには、ファイルの日付を設定するメタタグを含めることができます。 日付に基づいて多数のファイルを除外し、サーバーに不要な負荷をかけたくない場合は、
このキーワードは、各ファイルを解析する代わりに、サーバから返されるファイルの日付を検索ロボットに信頼するように指示します。 例えば、次のexclude日付マスクでは、ドキュメントが90日以前の場合、HTTPヘッダーでサーバーから返された日付に従って、URLに一致するページが無視されます。 サーバーから返される日付が90日以上過ぎている場合、
を使用しないでください。
|
regexp |
包含マスクと除外マスクの両方に使用します。 前に
検索ロボットは、除外正規表現の日付マスクに一致するファイルを検出した場合、それらのファイルのインデックスを作成しません。 検索ロボットは、「含む」正規表現の日付マスクに一致するファイルを検出した場合、それらのドキュメントのインデックスを作成します。 例えば、次の日付マスクがあるとします。 マスクは、180日以上古い一致するファイルを検索ロボットに除外するよう指示します。 つまり、URLに「archive」という単語を含むファイルです。 正規表現を参照してください。 |
日付マスクを使用して、ファイルの有効期間に基づいて顧客検索結果にファイルを含めたり、顧客検索結果からファイルを除外したりできます。
Test DateフィールドとTest URLフィールドを使用して、インデックス作成後にファイルが含まれているかどうかをテストします。
URLマスクの結果が顧客に表示されるように、サイトのインデックスを再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
Webサイトのインデックス部分に日付マスクを追加する、またはインデックス部分に日付マスクを追加しない場合
製品メニューで、Settings > Crawling > Date Masksをクリックします。
(オプション) Date MasksページのTest Dateフィールドに、YYYY-MM-DD形式の日付(例:2011-07-25
)を入力します。「Test URL」フィールドにwebサイトのURLマスクを入力し、「Test」をクリックします。
Date Masksフィールドに、1行につき1つの日付マスクアドレスを入力します。
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
HTTP基本認証で保護されているWebサイトの一部にアクセスするには、1つ以上のパスワードを追加できます。
パスワード設定の効果がユーザーに表示される前に、サイトのインデックスを再構築する必要があります。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
Passwordsページで、各パスワードを1行に入力します。 パスワードは、次の例に示すように、URLまたは領域、ユーザー名、パスワードで構成されます。
https://www.mydomain.com/ myname mypassword
上記のようにURLパスを使用する代わりに、領域を指定することもできます。
使用する正しい領域を決定するには、パスワードで保護されたWebページをブラウザで開き、「ネットワークパスワードの入力」ダイアログボックスを表示します。
この場合、領域名は「My Site Realm」です。
上記の領域名を使用すると、パスワードは次のようになります。
My Site Realm myusername mypassword
Webサイトに複数のレルムがある場合は、次の例に示すように、各レルムのユーザー名とパスワードを別々の行に入力して、複数のパスワードを作成できます。
Realm1 name1 password1
Realm2 name2 password2
Realm3 name3 password3
URLまたはレルムを含むパスワードを混在させて、パスワード・リストを次のように表示できます。
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
Realm3 name3 password3
Realm4 name4 password4
https://www.mysite.com/path1/path5 name5 password5
https://www.mysite.com/path6 name6 password6
上のリストでは、サーバの認証要求に一致するレルムまたはURLを含む最初のパスワードが使用されます。 https://www.mysite.com/path1/path2/index.html
のファイルがRealm3
にある場合でも、例えばname2
とpassword2
は、URLで定義されたパスワードが領域で定義されたパスワードの上に表示されるために使用されます。
パスワードを使用して、クロールやインデックス作成の目的で、Webサイトのパスワードで保護された領域にアクセスできます。
パスワードの効果が顧客に表示される前に、必ずサイトインデックスを再構築してください
ステージングされたWebサイトの増分インデックスの設定を参照してください。
認証が必要なWebサイトの領域にアクセスするためのパスワードを追加するには
製品メニューで、Settings > Crawling > Passwordsをクリックします。
Passwordsページの「Passwords」フィールドに、領域またはURLと、それに関連するユーザー名およびパスワードをスペースで区切って入力します。
領域パスワードとURLパスワードを別々の行に記述する例:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
1行に1つのパスワードのみを追加します。
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
Content Typesを使用して、クロールしてこのアカウントのインデックスを作成するファイルの種類を選択できます。
クロールおよびインデックス作成の対象として選択できるコンテンツタイプには、PDFドキュメント、テキストドキュメント、AdobeFlashムービー、Word、Excel、PowerPointなどのMicrosoft Officeアプリケーションのファイル、MP3ファイルのテキストが含まれます。 選択したコンテンツタイプ内のテキストが、Webサイト上の他のすべてのテキストと共に検索されます。
コンテンツタイプ設定の効果がユーザーに表示される前に、サイトインデックスを再構築する必要があります。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
Content TypesページでオプションText in MP3 Music Filesを選択した場合、MP3ファイルがクロールされ、2つの方法のいずれかでインデックスが作成されます。 最も一般的な方法は、次に示すように、HTMLファイル内のアンカーhrefタグから取得する方法です。
<a href="MP3-file-URL"></a>
2つ目の方法は、MP3ファイルのURLをURLエントリポイントとして入力する方法です。
URLエントリポイントについてを参照してください。
MP3ファイルは、そのMIMEタイプ「audio/mpeg」で認識されます。
MP3音楽ファイルのサイズは、通常は少量のテキストしか含まれていない場合でも、非常に大きい場合があることに注意してください。 例えば、MP3ファイルには、アルバム名、アーティスト名、曲タイトル、曲のジャンル、リリース年、コメントなどを任意で格納できます。 この情報は、ファイルの最後にある、いわゆるTAGに保存されます。 TAG情報を含むMP3ファイルのインデックスは、次のように作成されます。
Webサイト上でクロールおよびインデックス付けされた各MP3ファイルは、1ページとしてカウントされます。
Webサイトに大きなMP3ファイルが多数含まれている場合、アカウントのインデックス作成バイト制限を超える可能性があります。 この場合は、Content TypesページでText in MP3 Music Filesの選択を解除して、Webサイト上のすべてのMP3ファイルのインデックス作成を防ぐことができます。
Webサイト上の特定のMP3ファイルのインデックス作成だけを防ぐ場合は、次のいずれかの操作を行います。
MP3ファイルにリンクするアンカータグを<nofollow>
タグと</nofollow>
タグで囲みます。 検索ロボットは、これらのタグ間のリンクをたどりません。
MP3ファイルのURLを除外マスクとして追加します。
URLマスクについてを参照してください。
Content Typesを使用して、クロールしてこのアカウントのインデックスを作成するファイルの種類を選択できます。
クロールおよびインデックス作成の対象として選択できるコンテンツタイプには、PDFドキュメント、テキストドキュメント、AdobeFlashムービー、Word、Excel、PowerPointなどのMicrosoft Officeアプリケーションのファイル、MP3ファイルのテキストが含まれます。 選択したコンテンツタイプ内のテキストが、Webサイト上の他のすべてのテキストと共に検索されます。
コンテンツタイプ設定の効果がユーザーに表示される前に、サイトインデックスを再構築する必要があります。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
中国語、日本語、または韓国語のMP3ファイルをクロールしてインデックスを作成するには、以下の手順を実行します。 次に、 Settings > Metadata > Injectionsで、MP3ファイルのエンコードに使用する文字セットを指定します。
インジェクションについてを参照してください。
クロールおよびインデックスを作成するコンテンツタイプを選択するには
製品メニューで、Settings > Crawling > Content Typesをクリックします。
Content Typesページで、Webサイト上でクロールおよびインデックスを作成するファイルタイプを確認します。
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
「接続」を使用すると、検索ロボットがWebサイトのインデックスを作成する際に使用するHTTP接続を最大10個まで追加できます。
接続数を増やすと、クロールとインデックスの完了に要する時間が大幅に短縮されます。 ただし、接続を追加するたびにサーバーの負荷が高くなることに注意してください。
「接続」を使用して、クローラーが使用する同時HTTP接続の数を増やすことで、Webサイトのインデックス作成に要する時間を短縮できます。 最大10個の接続を追加できます。
接続を追加するたびに、サーバーに配置される負荷が増加することに注意してください。
接続を追加してインデックス作成速度を上げるには
製品メニューで、Settings > Crawling > Connectionsをクリックします。
Parallel Indexing Connectionsページの「Number of Connections」フィールドに、追加する接続数(1~10)を入力します。
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
フォームの送信を使用すると、Webサイト上のフォームを認識し、処理するのに役立ちます。
Webサイトのクロールおよびインデックス作成中に、検出された各フォームが、追加したフォーム定義と比較されます。 フォームがフォーム定義と一致する場合、そのフォームはインデックス作成用に送信されます。 フォームが複数の定義に一致する場合、一致する定義ごとに1回送信されます。
Form Submissionを使用すると、Webサイト上でインデックス作成の目的で認識されるフォームの処理に役立ちます。
変更の結果が顧客に表示されるように、サイトのインデックスを必ず再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
Webサイト上のフォームのインデックス作成用のフォーム定義を追加するには
製品メニューで、Settings > Crawling > Form Submissionをクリックします。
Form Submissionページで、「Add New Form」をクリックします。
Add Form Definitionページで、Form RecognitionとForm Submissionのオプションを設定します。
Form DefinitionページのForm Recognitionセクションの5つのオプションは、処理可能なWebページ内のフォームを識別するために使用されます。
Form Submissionセクションの3つのオプションを使用して、フォームと共にWebサーバーに送信されるパラメーターと値を指定します。
1行につき1つの認識または送信パラメータを入力します。 各パラメーターには、名前と値を含める必要があります。
オプション |
説明 |
---|---|
フォーム認識 |
|
ページURLマスク |
フォームを含むWebページを特定します。 単一のページに表示されるフォームを識別するには、次の例のように、そのページのURLを入力します。 複数のページに表示されるフォームを識別するには、ページを記述する際にワイルドカードを使用するURLマスクを指定します。 例えば、 また、正規表現を使用して複数のページを識別することもできます。 単に
URLマスクの前の |
アクションURLマスク |
のアクション属性を識別します。
ページURLマスクと同様に、アクションURLマスクも、単一のURL、ワイルドカードを含むURL、または正規表現の形式を取ることができます。 URLマスクには、次のいずれかを使用できます。
URLマスクまたはアクションURLマスクで識別されるページのテキストのインデックスを作成しない場合、またはそれらのページのリンクをたどりたくない場合は、
URLエントリポイントについてを参照してください。 URLマスクについてを参照してください。 |
フォーム名マスク |
フォームが
webページの 単純な名前(
通常、フォームにはname属性がないので、このフィールドは空のままにすることができます。 |
フォームIDマスク |
フォームが
webページの 単純な名前(
通常、フォームにはname属性がないので、このフィールドは空のままにすることができます。 |
パラメーター |
指定したパラメーターまたは指定した値を含む指定したパラメーターを含む、または含まないフォームを特定します。 例えば、rick_brough@mydomain.comにプリセットされている電子メールパラメーター(パスワードパラメーター)が含まれ、名パラメーターではないフォームを識別するには、次のパラメーター設定を1行に1つずつ指定します。 |
フォーム送信 |
|
アクションURLの上書き |
フォーム送信の対象がフォームのアクション属性で指定されたものと異なる場合に指定します。 例えば、フォーム内のURLとは異なるURL値を作成するJavaScript関数を使用してフォームが送信される場合に、このオプションを使用できます。 |
Overrideメソッド |
フォーム送信の対象がフォームのアクション属性で使用されるものと異なる場合と、送信時にJavaScriptによってメソッドが変更された場合を指定します。 すべてのフォームパラメーター(
|
パラメーター |
フォーム送信パラメーターの先頭に
パラメーターに
例えば、次のパラメーターを送信するとします。
フォーム送信パラメーターは次のようになります。 のmethod属性
webページの (
|
クリック Add.
(オプション)次のいずれかの操作を行います。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
Webサイト上のフォームが変更された場合や、定義を変更する必要がある場合は、既存のフォーム定義を編集できます。
Form Submissionページには、フォーム定義に対して行った変更を元に戻すHistory機能がないことに注意してください。
変更の結果が顧客に表示されるように、サイトのインデックスを必ず再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
フォーム定義を編集するには
製品メニューで、Settings > Crawling > Form Submissionをクリックします。
Form Submissionページで、更新するフォーム定義の右側にあるEditをクリックします。
Edit Form Definitionページで、Form RecognitionとForm Submissionのオプションを設定します。
Webサイト上のフォームのインデックス作成に関するフォーム定義の追加のオプションの表を参照してください。
クリック Save Changes.
(オプション)次のいずれかの操作を行います。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
フォームがWebサイト上に存在しなくなった場合や、特定のフォームを処理してインデックスを作成する必要がなくなった場合は、既存のフォーム定義を削除できます。
Form Submissionページには、フォーム定義に対して行った変更を元に戻すHistory機能がないことに注意してください。
変更の結果が顧客に表示されるように、サイトのインデックスを必ず再構築してください。
ステージングされたWebサイトの増分インデックスの設定を参照してください。
フォーム定義を削除するには
製品メニューで、Settings > Crawling > Form Submissionをクリックします。
Form Submissionページで、削除するフォーム定義の右側にあるDeleteをクリックします。
削除するフォーム定義が正しいことを確認してください。 次の手順でDeleteをクリックしても、削除の確認ダイアログボックスは表示されません。
Delete Form Definitionページで、「Delete」をクリックします。
(オプション)次のいずれかの操作を行います。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
Index Connectorを使用して、XMLページや任意の種類のフィードのインデックス作成用に追加の入力ソースを定義します。
データフィード入力ソースを使用すると、利用可能なクロール方法の1つを使用して、Webサイトで通常検出されるものとは異なるフォームに保存されたコンテンツにアクセスできます。 クロールおよびインデックス付けされた各ドキュメントは、Webサイト上のコンテンツページに直接対応します。 ただし、データフィードは、XMLドキュメント、またはコンマ区切りまたはタブ区切りのテキストファイルから取得され、インデックスを作成するコンテンツ情報が含まれます。
XMLデータソースは、個々のドキュメントに対応する情報を含むXMLスタンサ(レコード)で構成されます。 これらの個々のドキュメントは、インデックスに追加されます。 テキストデータフィードには、個々のドキュメントに対応する個々の改行区切りレコードが含まれます。 これらの個々のドキュメントもインデックスに追加されます。 どちらの場合も、インデックスコネクタ設定では、フィードの解釈方法を説明します。 各設定では、ファイルの保存場所と、サーバーがファイルにアクセスする方法を説明します。 この設定は、「マッピング」情報も記述します。 つまり、各レコードの項目を使用して、結果のインデックスにメタデータフィールドを設定する方法です。
Staged Index Connector Definitionsページにインデックスコネクタ定義を追加した後、「名前」または「タイプ」の値に以外の設定を変更できます。
Index Connectorページには、次の情報が表示されます。
設定して追加した定義済みのインデックスコネクタの名前。
追加した各コネクタに対して、次のいずれかのデータソースタイプを指定します。
次回のクロールとインデックス作成に対してコネクタが有効かどうか。
データソースのアドレス。
インデックスコネクタについても参照してください。
手順 |
手順 |
説明 |
---|---|---|
1 |
データソースをダウンロードします。 |
テキスト設定とフィード設定の場合、単純なファイルダウンロードです。 |
2 |
ダウンロードしたデータソースを個々の擬似ドキュメントに分類します。 |
テキストの場合、改行で区切られた各テキスト行は、個々のドキュメントに対応し、コンマやタブなど、指定した区切り文字を使用して解析されます。 フィードの場合、各ドキュメントのデータは次の形式の正規表現パターンを使用して抽出されます。 インデックスコネクタのマップを使用してを追加し、データのキャッシュコピーを作成して、クローラーのリンクのリストを作成します。 データはローカルキャッシュに保存され、設定済みのフィールドが設定されます。 解析されたデータはローカルキャッシュに書き込まれます。 このキャッシュは後で読み取られ、クローラーで必要な単純なHTMLドキュメントを作成します。 例: <title> 要素は、「タイトル」メタデータフィールドへのマッピングが存在する場合にのみ生成されます。 同様に、 <body> 要素は、Bodyメタデータフィールドへのマッピングが存在する場合にのみ生成されます。 重要:事前定義済みのURLメタタグへの値の割り当てはサポートされていません。 その他すべてのマッピングについては、元のドキュメント内のデータを持つ各フィールドに対して <meta> タグが生成されます。 各ドキュメントのフィールドがキャッシュに追加されます。 キャッシュに書き込まれるドキュメントごとに、次の例のようにリンクも生成されます。 設定のマッピングでは、プライマリキーとして識別される1つのフィールドが必要です。 このマッピングは、データがキャッシュから取得される際に使用されるキーを形成します。 クローラーは、URL インデックスを認識します。スキームプレフィックス。ローカルにキャッシュされたデータにアクセスできます。 |
3 |
キャッシュされたドキュメントセットをクロールします。 |
インデックス:リンクは、クローラーの保留中リストに追加され、通常のクロールシーケンスで処理されます。 |
4 |
各ドキュメントを処理します。 |
各リンクのキー値はキャッシュ内のエントリに対応するので、各リンクをクロールすると、そのドキュメントのデータがキャッシュから取得されます。 次に、HTML画像を「アセンブル」し、処理してインデックスに追加します。 |
XML設定のインデックス作成プロセスは、次のマイナーな変更と例外を含むテキストおよびフィード設定のプロセスと似ています。
XMLクロールのドキュメントは既に個々のファイルに分割されているので、上記の表の手順1と2は直接適用されません。 Index Connector AddページのHost AddressフィールドとFile PathフィールドにURLを指定すると、そのURLがダウンロードされ、通常のHTMLドキュメントとして処理されます。 ダウンロードドキュメントには<a href="{url}"...
リンクのコレクションが含まれ、各リンクが処理されるXMLドキュメントを指すことが期待されます。 このようなリンクは次の形式に変換されます。
<a href="index:<ic_config_name>?url="{url}">
例えば、Adobeの設定から次のリンクが返された場合、
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a>
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>
上の表では、手順3は適用されず、クロールおよびインデックス作成時に手順4が完了します。
または、XMLドキュメントを、クロールプロセスで自然に検出された他のドキュメントと混在させることもできます。 そのような場合は、書き換えルール( Settings > Rewrite Rules > Crawl List Retrieve URL Rules )を使用して、XMLドキュメントのURLを変更し、Index Connectorに転送することができます。
クロールリスト取得URLルールについてを参照してください。
例えば、次の書き換えルールがあるとします。
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1
このルールは、.xml
で終わるすべてのURLをインデックスコネクタリンクに変換します。 クローラは、index:
URLスキームを認識して書き換えます。 ダウンロードプロセスは、プライマリ上のIndex Connector Apacheサーバーからリダイレクトされます。 ダウンロードした各ドキュメントは、フィードで使用されるのと同じ正規表現パターンを使用して調べられます。 ただし、この場合、製造されたHTMLドキュメントはキャッシュに保存されません。 代わりに、インデックス処理用にクローラーに直接渡されます。
任意のアカウントに対して複数のインデックスコネクタ設定を定義できます。 次の図に示すように、設定はSettings > Crawl > URL Entrypointsのドロップダウンリストに自動的に追加されます。
ドロップダウンリストから設定を選択すると、URLエントリポイントのリストの末尾に値が追加されます。
無効なインデックスコネクタ設定はドロップダウンリストに追加されますが、選択することはできません。 同じインデックスコネクタ設定を2回選択すると、リストの最後に追加され、前のインスタンスが削除されます。
増分クロールのインデックスコネクタエントリポイントを指定するには、次の形式を使用してエントリを追加します。
index:<indexconnector_configuration_name>
インデックスコネクタページで、追加された各エントリが見つかり、有効になっている場合、クローラーはそのエントリを処理します。
注意:各ドキュメントのURLは、インデックスコネクタ設定名とドキュメントのプライマリキーを使用して構築されるので、増分更新を実行する際は、同じインデックスコネクタ設定名を使用するようにしてください。 これにより、Adobe Search&Promoteは、以前にインデックス付けされたドキュメントを正しく更新できます。
URLエントリポイントについても参照してください。
インデックスコネクタを追加する際のセットアップマップの使用
インデックスコネクタを追加する際に、オプションで機能Setup Mapsを使用して、データソースのサンプルをダウンロードできます。 データはインデックスの適合性を調べられます。
「インデックスコネクタ」タイプを選択した場合 |
マップを設定機能 |
---|---|
テキスト |
最初にタブを試し、次に縦棒( )を試して区切り文字の値を決定します。 | )を挿入し、最後にコンマ( 、 )を挿入します。 「マップを設定」をクリックする前に区切り文字値を既に指定している場合は、代わりにその値が使用されます。 最適なスキームを使用すると、Mapフィールドに適切なTag値とField値の推測値が入力されます。 さらに、解析済みデータのサンプリングが表示されます。 ファイルにヘッダー行が含まれていることがわかっている場合は、「最初の行のヘッダー」を必ず選択してください。 設定関数は、この情報を使用して、結果のマップエントリをより適切に識別します。 |
フィード |
データソースをダウンロードし、単純なXML解析を実行します。 結果のXPath識別子は、Mapテーブルのタグ行に表示され、同様の値がFieldsに表示されます。 これらの行は、使用可能なデータのみを識別し、より複雑なXPath定義は生成されません。 ただし、XMLデータとItemtagの値を識別するので、これでも役に立ちます。
注意: 「マップを設定」機能は、分析を実行するXMLソース全体をダウンロードします。 ファイルのサイズが大きい場合、この操作はタイムアウトする可能性があります。 成功した場合、この関数は可能なすべてのXPath項目を識別します。この項目の多くは、使用するのが望ましくありません。 必ず、結果のマップ定義を確認し、不要なマップ定義や不要なマップ定義を削除してください。 |
XML |
プライマリリンクリストではなく、代表的な個々のドキュメントのURLをダウンロードします。 この単一のドキュメントは、フィードで使用されるのと同じメカニズムを使用して解析され、結果が表示されます。 「を追加」をクリックして設定を保存する前に、URLを元のプライマリリンクリストドキュメントに戻してください。 |
重要:サイズの大きいXMLデータセットに対しては、ファイルパーサがファイル全体をメモリに読み込もうとするので、マップ設定機能が動作しない場合があります。その結果、メモリ不足が発生する場合があります。 ただし、インデックス作成時に同じドキュメントを処理する場合、メモリに読み込まれません。 その代わりに、大きなドキュメントは「外出先で」処理され、最初にメモリに完全に読み込まれるわけではありません。
インデックスコネクタを追加する際のプレビューの使用
インデックスコネクタを追加する際に、オプションでPreview機能を使用して、データを保存しているかのようにデータを検証できます。 設定に対してテストを実行しますが、設定をアカウントに保存する必要はありません。 テストは、設定済みのデータソースにアクセスします。 ただし、ダウンロードキャッシュは一時的な場所に書き込まれます。インデックス作成クローラーが使用するメインキャッシュフォルダーとは競合しません。
Previewは、 Acct:IndexConnector-Preview-Max-Documentsで制御されたデフォルトの5つのドキュメントのみを処理します。 プレビューされたドキュメントは、インデックス作成クローラーに表示されるとおりに、ソース形式で表示されます。 この表示は、Webブラウザの「ソースを表示」機能に似ています。 標準のナビゲーションリンクを使用して、プレビューセット内のドキュメントを移動できます。
プレビューでは、XML設定はサポートされていません。このようなドキュメントは直接処理され、キャッシュにダウンロードされないからです。
各インデックスコネクタ設定は、データソースと、そのソースに定義されたデータ項目をインデックス内のメタデータフィールドに関連付けるマッピングを定義します。
新しい有効な定義の効果がユーザーに表示される前に、サイトのインデックスを再構築します。
インデックスコネクタ定義を追加するには
製品メニューで、Settings > Crawling > Index Connectorをクリックします。
Stage Index Connector Definitionsページで、「Add New Index Connector」をクリックします。
Index Connector Addページで、必要なコネクタオプションを設定します。 使用できるオプションは、選択したTypeによって異なります。
オプション |
説明 |
---|---|
名前 |
インデックスコネクタ設定の一意の名前。 英数字を使用できます。 「_」と「 — 」の文字も使用できます。 |
タイプ |
データのソース。 選択したデータソースタイプは、 インデックスコネクタの追加ページで使用できる結果のオプションに影響します。 次の中から選択できます。
|
データソースの種類:テキスト |
|
有効 |
クロールとインデックスを行う設定を「オン」にします。 または、設定を「オフ」にして、クロールやインデックス作成を防ぐこともできます。 注意:無効なインデックスコネクタ設定がエントリポイントリストに見つかった場合、その設定は無視されます。 |
ホストアドレス |
データが存在するサーバーホストのアドレスを指定します。 必要に応じて、次の例のように、データソースドキュメントへの完全なURI(Uniform Resource Identifier)パスを指定できます。 または URIは、「Host Address」、「File Path」、「Protocol」、およびオプションで「Username」、「Password」フィールドの適切なエントリに分類されます。 データソースファイルが見つかったホストシステムのIPアドレスまたはURLアドレスを指定します。 |
ファイルパス |
単純なフラットテキストファイル、コンマ区切り、タブ区切り、またはその他の一貫した区切り形式ファイルへのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 |
増分ファイルパス |
単純なフラットテキストファイル、コンマ区切り、タブ区切り、またはその他の一貫した区切り形式ファイルへのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 このファイルを指定した場合は、インクリメンタルインデックスの操作中にダウンロードされて処理されます。 ファイルを指定しない場合は、代わりに[ファイルパス]の下に表示されるファイルが使用されます。 |
垂直ファイルパス |
垂直更新時に使用する単純なフラット・テキスト・ファイル、カンマ区切り、タブ区切り、またはその他の一貫した区切り形式のファイルへのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 このファイルを指定した場合は、垂直更新の操作中にダウンロードされて処理されます。 注意:この機能は、デフォルトでは有効になっていません。お使いの機能を有効化するには、テクニカルサポートにお問い合わせください。 |
ファイルパスを削除 |
1行に1つのドキュメント識別子値を含む、単純なフラットテキストファイルのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 このファイルを指定した場合は、インクリメンタルインデックスの操作中にダウンロードされて処理されます。 このファイルに含まれる値は、以前にインデックス付けされたドキュメントを削除する「削除」リクエストの作成に使用されます。 このファイルの値は、プライマリキーとして指定された列の、FullまたはIncremental File Pathファイルの値に対応している必要があります。 注意:この機能は、デフォルトでは有効になっていません。お使いの機能を有効化するには、テクニカルサポートにお問い合わせください。 |
Protocol |
ファイルへのアクセスに使用するプロトコルを指定します。 次の中から選択できます。
|
タイムアウト |
FTP、SFTP、HTTPまたはHTTPS接続のタイムアウトを秒単位で指定します。 この値は30 ~ 300の範囲で指定する必要があります。 |
再試行 |
失敗したFTP、SFTP、HTTP、HTTPSの接続の再試行の最大回数を指定します。 この値は、0 ~ 10の範囲で指定する必要があります。 値が0の場合、再試行は行われません。 |
エンコード |
指定したデータソースファイルで使用する文字エンコーディングシステムを指定します。 |
区切り |
指定したデータソースファイルの各フィールドの区切りに使用する文字を指定します。 コンマ文字( 、 )は区切り文字の例です。 コンマは、指定したデータソースファイル内のデータフィールドを区切るのに役立つフィールド区切り文字として機能します。 Tab? を使用して、水平タブ文字を区切り文字として使用します。 |
1行目のヘッダー |
データソースファイルの最初の行にヘッダー情報のみが含まれ、データは含まれないことを示します。 |
インデックス作成用のドキュメントの最小数 |
正の値に設定した場合は、ダウンロードするファイルに必要な最小レコード数を指定します。 受け取ったレコードが少ない場合、インデックス操作は中止されます。 注意:この機能は、デフォルトでは有効になっていません。お使いの機能を有効化するには、テクニカルサポートにお問い合わせください。 注意:この機能は、完全なインデックス操作でのみ使用されます。 |
マップ |
列番号を使用して、列とメタデータのマッピングを指定します。
|
データソースの種類:Feed |
|
有効 |
クロールとインデックスを行う設定を「オン」にします。 または、設定を「オフ」にして、クロールやインデックス作成を防ぐこともできます。 注意:無効なインデックスコネクタ設定がエントリポイントリストに見つかった場合、その設定は無視されます。 |
ホストアドレス |
データソースファイルが見つかったホストシステムのIPアドレスまたはURLアドレスを指定します。 |
ファイルパス |
複数の「行」の情報を含むプライマリXMLドキュメントへのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 |
増分ファイルパス |
複数の「行」の情報を含む増分XMLドキュメントのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 このファイルを指定した場合は、インクリメンタルインデックスの操作中にダウンロードされて処理されます。 ファイルを指定しない場合は、代わりに[ファイルパス]の下に表示されるファイルが使用されます。 |
垂直ファイルパス |
垂直更新中に使用する、複数の疎な「行」の情報を含むXMLドキュメントへのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 このファイルを指定した場合は、垂直更新の操作中にダウンロードされて処理されます。 注意:この機能は、デフォルトでは有効になっていません。お使いの機能を有効化するには、テクニカルサポートにお問い合わせください。 |
ファイルパスを削除 |
1行に1つのドキュメント識別子値を含む、単純なフラットテキストファイルのパスを指定します。 パスは、ホストアドレスのルートに対する相対パスです。 このファイルを指定した場合は、インクリメンタルインデックスの操作中にダウンロードされて処理されます。 このファイルに含まれる値は、以前にインデックス付けされたドキュメントを削除する「削除」リクエストの作成に使用されます。 このファイルの値は、プライマリキーとして指定された列の、FullまたはIncremental File Pathファイルの値に対応している必要があります。 注意:この機能は、デフォルトでは有効になっていません。お使いの機能を有効化するには、テクニカルサポートにお問い合わせください。 |
プロトコル |
ファイルへのアクセスに使用するプロトコルを指定します。 次の中から選択できます。
|
Itemtag |
指定したデータソースファイル内の個々のXML行を識別するために使用できるXML要素を識別します。 例えば、次のAdobeXMLドキュメントのFeedフラグメントでは、Itemtag値はレコードです。 |
インデックス作成用のドキュメントの最小数 |
正の値に設定した場合は、ダウンロードするファイルに必要な最小レコード数を指定します。 受け取ったレコードが少ない場合、インデックス操作は中止されます。 注意:この機能は、デフォルトでは有効になっていません。お使いの機能を有効化するには、テクニカルサポートにお問い合わせください。 注意:この機能は、完全なインデックス操作でのみ使用されます。 |
マップ |
XPath式を使用して、XML要素とメタデータのマッピングを指定できます。
|
データソースの種類:XML |
|
有効 |
クロールとインデックスを行う設定を「オン」にします。 または、設定を「オフ」にして、クロールやインデックス作成を防ぐこともできます。 注意:無効なインデックスコネクタ設定がエントリポイントリストに見つかった場合、その設定は無視されます。 |
ホストアドレス |
データソースファイルが見つかったホストシステムのURLアドレスを指定します。 |
ファイルパス |
リンク(
パスは、ホストアドレスのルートに対する相対パスです。 |
プロトコル |
ファイルへのアクセスに使用するプロトコルを指定します。 次の中から選択できます。
注意:[プロトコル]設定は、[ホストアドレス]フィールドや[ファイルパス]フィールドに情報が指定されている場合にのみ使用されます。個々のXMLドキュメントは、URL仕様に従って、HTTPまたはHTTPSを使用してダウンロードされます。 |
Itemtag |
指定したデータソースファイル内の「行」を定義するXML要素を識別します。 |
マップ |
列番号を使用して、列とメタデータのマッピングを指定できます。
|
(オプション)Setup Mapsをクリックして、データソースのサンプルをダウンロードします。 データはインデックスの適合性を調べられます。 この機能は、テキストおよびフィードのタイプに対してのみ使用できます。
(オプション)Previewをクリックして、設定の実際の動作をテストします。 この機能は、テキストおよびフィードのタイプに対してのみ使用できます。
Addをクリックして、設定をIndex Connector DefinitionsページとURL EntrypointsページのIndex Connector Configurationsドロップダウンリストに追加します。
URLエントリポイントについてを参照してください。
Index Connector Definitionsページで、「rebuild your staged site index」をクリックします。
(オプション)Index Connector Definitionsページで、次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
定義済みの既存のインデックスコネクタを編集できます。
Typeドロップダウンリストの「インデックスコネクタ名」や「タイプ」など、一部のオプションは変更できません。
インデックスコネクタ定義を編集するには
製品メニューで、Settings > Crawling > Index Connectorをクリックします。
Index ConnectorページのActions列見出しの下で、設定を変更するインデックスコネクタ定義名のEditをクリックします。
Index Connector Editページで、必要なオプションを設定します。
インデックスコネクタ定義の追加のオプションの表を参照してください。
クリック Save Changes.
(オプション)Index Connector Definitionsページで、「rebuild your staged site index」をクリックします。
(オプション)Index Connector Definitionsページで、次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
既存のインデックスコネクタ定義の設定を確認できます。
Index Connector Definitionsページにインデックスコネクタ定義を追加した後は、そのタイプ設定を変更できません。 代わりに、定義を削除してから、新しい定義を追加する必要があります。
インデックスコネクタ定義の設定を表示するには
既存のインデックスコネクタ定義をコピーして、作成する新しいインデックスコネクタの基礎として使用できます。
インデックスコネクタ定義をコピーする場合、コピーされた定義はデフォルトで無効になります。 定義を有効または「オン」にするには、Index Connector Editページから定義を編集し、Enableを選択する必要があります。
インデックスコネクタ定義の編集を参照してください。
インデックスコネクタ定義をコピーするには
製品メニューで、Settings > Crawling > Index Connectorをクリックします。
Index ConnectorページのActions列見出しの下で、設定を複製するインデックスコネクタ定義名のCopyをクリックします。
Index Connector Copyページで、定義の新しい名前を入力します。
クリック Copy.
(オプション)Index Connector Definitionsページで、次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
既存のインデックスコネクタ定義の名前を変更できます。
定義の名前を変更したら、 Settings > Crawling > URL Entrypointsをチェックします。 新しい定義名がURL Entrypointsページのドロップダウンリストに反映されるようにする必要があります。
インデックスを作成する複数のURLエントリポイントの追加を参照してください。
インデックスコネクタ定義の名前を変更するには
製品メニューで、Settings > Crawling > Index Connectorをクリックします。
Index ConnectorページのActions列見出しの下で、変更するインデックスコネクタ定義名のRenameをクリックします。
Index Connector Renameページで、Nameフィールドに定義の新しい名前を入力します。
クリック Rename.
Settings > Crawling > URL Entrypointsをクリックします。 以前のインデックスコネクタの名前がリストに存在する場合は、その名前を削除し、新しく名前を変更したエントリを追加します。
インデックスを作成する複数のURLエントリポイントの追加を参照してください。 1.(オプション)Index Connector Definitionsページで、次のいずれかの操作を行います。
Historyをクリックして、加えた変更を元に戻します。
「履歴」オプションの使用を参照してください。
クリック Live.
ライブ設定の表示を参照してください。
クリック Push Live.
ライブのステージ設定をプッシュするを参照してください。
不要になった既存のインデックスコネクタ定義や使用しない既存のインデックスコネクタ定義を削除できます。
インデックスコネクタ定義を削除するには