スクリプトインデックスについて

スクリプトインデックスを使用すると、ログインしなくても、インクリメンタルインデックスオプションを書き込み、更新、維持できます。 検索ロボットは、サーバー上でホストされているテキストファイルから指示を読み取ります。

スクリプトインデックスの使用

スクリプトの増分インデックスの設定について

スクリプトインデックスを使用するには、スクリプトインクリメンタルインデックス設定ページを使用して、サーバー上にあるスクリプトファイル(プレーンテキストファイル)のURLを指定します。 例: https://www.mysite.com/indexlist.txtサイトが変更されると、手動または自動(ニュースフィード、株価、その他の変更されたファイルからの情報の受信によってトリガーされるスクリプトを使用)でテキストファイルにコマンドブロックを追加できます。

スクリプトの増分インデックスが開始されると、検索ロボットはテキストファイルを読み取り、そのファイル内の新しいコマンドを実行します。 デフォルトでは、検索ロボットは新しいコマンドのみを処理し、これはファイルの日付によって決まります。 スクリプトインデックス Clear Date を設定する際にチェックを入れない限り、検索ロボットは最近処理されたブロックの日付指定子を「記憶」します。

スクリプトファイルについて

URLで指定するスクリプトファイルは、サーバー上のプレーンテキストファイルです。 行末シーケンスには、キャリッジリターン、ラインフィード、またはその両方を使用できます。 空白行には、0個以上の空白文字の後に行末のシーケンスが続きます。 すべてのコマンドでは、大文字と小文字が区別されません。

テキストファイルは、スクリプト化された増分インデックスを実行する際に検索ロボットが使用する情報を記述するブロックで構成されます。

ブロックは日付順に並べられ、最も古いブロックがテキストファイルの先頭に、最も新しいブロックが下に表示されます。 各ブロックは、1行のdate-commandとdate-specifierコマンドで始まり、次のブロック例のように空白行区切りで終わります(間に複数のコマンドがあります)。

HTTP 1.1スタイルを使用する場合、序数が10より小さいすべての日付に対して、先頭にゼロを付ける必要があります。 例えば、11月6日は11月6日ではなく、11月6日です。

コマンド

説明

date-command

各ブロック開始の最初の行に、次の2つの日付コマンドのいずれかが含まれます。

  • date

    「date」コマンドを使用して、日付指定子が日、日、時刻、およびタイムゾーンで構成されることを示します。

  • 日付指定子がエポック秒の時間で構成されることを示す には、「秒」を使用します(例:78411777)。 秒数を使用する場合は、 ブロック間の秒数が増えることを確認してください。

date-specifier

date-specifierコマンドは、通常、 ブロック情報がファイルに追加された日付と時刻(dateコマンド)、またはエポック秒(secondsコマンド)の時刻を記録します。 次に例を示します。

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

HTTP 1.1スタイルを使用する場合、序数が10より小さいすべての日付に対して、先頭にゼロを付ける必要があります。 例えば、11月6日は11月6日ではなく、11月6日です。

検索ロボットは、最も最近処理されたブロックの日付指定子を「記憶」し、「新しい」と見なされる情報のみをインデックス化します。 (リアルタイムは検索ロボットには関係ありません。 その代わりに、前に処理された他の時間との関係が重要です。)

例えば、検索ロボットが日付指定子が10:00 p.mのブロックを読み取った後、インデックス操作の実行時間に関係なく、午後10:00以前の時刻を記録するブロックは読み取りません。 ワーストケースシナリオでは、日付指定子に誤って「2004」ではなく「2040」と入力する場合があります。 この場合、検索ロボットは次のインデックス作成操作中に2040ブロックのインデックスを作成し、その後(2040年の日付が1つ以外の場合)他の情報ブロックの読み取りを拒否します。 この問題が発生する場合は、前に処理されたすべてのブロックをテキストファイルから削除し、「 日付をクリア」をクリックし てから、アクティブにします。

コメント行

コメント行の先頭には「#」文字を付けます。

各コメント行は、それぞれ独自の行でなければなりません。行末コメントを入力することはできません。

コメント行は、空白行と見なされません。 また、次の例のように、日付や秒コマンドの前でも、ブロック内の任意の場所に表示できます。

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-command

各テキストブロックには、必要な数のアクションコマンドを含めることができます。 次のアクションコマンドオプションは、標準の増分インデックスのオプションに対応します。

  • add

    URLと共に使用します。 検索ロボットは、前回のインデックス作成操作以降に変更された、指定したURLのみをインデックス化します。 また、検索ロボットは、指定したドキュメント内に含まれるリンクに従い、変更されたドキュメントのみをインデックス化します。

    次の例のように、URLの後に nofollow または noindex キーワードを付けることができます。

    add https://www.mydomain.com/ noindex

  • update

    URLマスクと共に使用します。 検索ロボットは、指定したURLマスクに一致するすべてのドキュメントを検索し、更新します。

    次の例のように、URLの後に nofollow または noindex キーワードを付けることができます。

    update https://www.mydomain.com/products/

  • include または exclude

    URLマスクと共に使用します。 検索ロボットは、指定されたマスクの種類に基づいて、ドキュメントのインデックス(「include」)を作成するか、無視(「exclude」)を作成します。

    例:

    include https://www.mydomain.com/products/household/lightbulbs*.html

    または

    exclude https://www.mydomain.com/archive/

  • include-date または exclude-date

    URLマスクと共に使用します。 検索ロボットは、URLとドキュメントの日付の両方に基づいて、ドキュメントのインデックス(「include」)を作成するか、無視(「exclude」)を作成します。 次の種類のマスクを使用できます。

    • include-days NNN

      検索ロボットは、指定したURLマスクに一致し、NNN日以上経過しているすべてのドキュメントのインデックスを作成します。

      URLマスクの後にキーワード nofollow noindex またはその両方を付けることができ server-date ます。

    • include-date YYYY-MM-DD

      検索ロボットは、指定したURLマスクに一致し、YYYY-MM-DD(日付YYYY)より古いすべてのドキュメントのインデックスを作成します。「YYYY」は4桁の年、「MM」は1桁または2桁の月(1 ~ 12)、「DD」は1桁または2桁の日(1 ~ 31)です。

      URLマスクの後にキーワード nofollow noindex またはその両方を付けることができ server-date ます。

    • exclude-days NNN

      指定したURLマスクに一致し、NNN日以上経過しているすべてのドキュメントのインデックス作成を無効にします。

      URLマスクの後にキーワードを付けることができ server-date ます。

    • exclude-date YYYY-MM-DD

      指定したURLマスクに一致し、YYYY-MM-DDより古い、または古いすべてのドキュメントのインデックス作成を無効にします。

      URLマスクの後にキーワードを付けることができ server-date ます。

  • delete

    URLを指定します。 検索ロボットは、URLで識別されるインデックスからドキュメントを削除します。

  • deletemask

    検索ロボットは、指定されたURLマスクに一致するインデックスからドキュメントを削除します。

URLマスクにつ いても参照してください

スクリプトファイルの例

次のスクリプトファイルの例では、検索ロボットは日付指定子が日付後に指定したブロックを処理します。日付指定子は、最近処理されたブロックの日付指定子です。 その場合、次のインデックス作成操作が実行されます。

  • インデックス y2k-problems.html から削除します。

  • 検索イ no-y2k-problems.html ンデックスに追加し、のリンクのどれにも従いません no-y2k-problems.html

  • クロール中に、検索インデックスから housewares.htm lと一致するURLを除外 lightfixtures.htmします。

  • の下に他のすべてのディレクトリとドキュメントを含め www.mydomain.comます。

  • およびディレクトリ内のすべてのドキュメント products information を更新し、最後のインデックス作成操作以降に変更されたすべての子リンクをクロールしてインデックスを作成します。

  • クロール中に、Webサイトの archive セクションにあるURLを除外します(URLが1999年1月1日以前の日付の場合)。

  • 検索インデックスと一致 housewares.html するURLと検索インデックス lightfixtures.html からURLを除外します。

  • ディレクトリ内のインデックスファイルですが、これらのファイルからのリンクをクロールまたはインデックス付けしないでください。 help

  • に対して発生した他のファイルをクロールしてインデックスを作成し www.mydomain.comます。

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

スクリプト化された増分インデックスの設定

作成したスクリプトを指定して、インクリメンタルインデックスの書き込み、更新、維持を行うことができます。ログインは不要です。 検索ロボットは、サーバー上でホストされているテキストファイルから指示を読み取り、増分インデックスを実行します。

スクリプト化された増分インデックスを設定するには

  1. 製品メニューで、/をクリックし IndexScripted IndexConfiguration

  2. ページの Scripted Incremental Index Configuration で、サーバー上にあるテキストファイルスクリプトのURLを Script File URL​入力します。

    「Scripted Index について」を参照してください。

  3. (オプション)検索ロボット Clear Date に、最近処理されたブロックの日付指定子を「記憶」させないかどうかをチェックします。

    デフォルトでは、検索ロボットはテキストファイル内の新しいコマンドブロック(ファイルの日付によって決まる)のみを処理します。 デフォルトを使用しない場合は、チェックをオンにし Clear Date​ます。

  4. クリック Save Changes.

  5. (オプション)次のいずれかの操作を行います。

ライブWebサイト用のスクリプト化された増分インデックススケジュールの設定

1日を通して定期的にスクリプトの増分インデックスが行われるように、スケジュールを設定できます。

選択する基本時刻は、「アカウントの設定」で設定したタイムゾーンに応じてローカルになります。

「アカウント設定の 指定」を参照してください。

多くの場合、Webサーバーは、深夜にメンテナンスのためにダウンする予定です。 スケジュールされたインデックス時間中にサーバーがダウンした場合、インデックス作成プロセスは失敗します。 Webサーバーが利用可能な時間帯を選択していることを確認してください。

インデックススケジュールは、ライブインデックスにのみ適用されます。ステージインクリメンタルインデックスはスケジュールできません。

ライブWebサイト用のスクリプト化された増分インデックススケジュールを設定するには

  1. 製品メニューで、/をクリックし IndexScripted IndexLive Schedule
  2. ページのドロップダウン Scripted Incremental Index ScheduleRead the Scripted Incrementally Indexing File リストで、スクリプト増分インデックステキストファイルを実行する頻度を、時間単位または分単位で選択します。
  3. ドロップダウンリストで、新しいスクリプト付き増分インデックスを再生成する開始時間を選択します。 Base Time
  4. クリック Save Changes.

ライブWebサイトまたはステージングされたWebサイトのスクリプト化された増分インデックスの実行

スクリプト付き増分インデックスを使用すると、頻繁に変更されるページの集まりなど、ライブWebサイトやステージングされたWebサイトの「断片」のインデックスを作成でき、ログインする必要がありません。

この機能を使用するには、スクリプト化されたインクリメンタルインデックステキストファイルを必ず設定してください。

詳しくは、スクリプト増分インデックスの 設定を参照してください

ライブWebサイトまたはステージングされたWebサイトのスクリプト化された増分インデックスを実行するには

  1. 製品メニューで、次のいずれかの操作を行います。

    • Click Index > Scripted Index > Live Index.
    • Click Index > Scripted Index > Staged Index.
  2. クリック Scripted Index Now.

  3. (オプション)インデックス作成エラーが発生した場合は、をクリックして関連するログ View Errors を表示します。

ライブWebサイトまたはステージングされたWebサイトのスクリプト化された増分インデックスログの表示

ライブフルスクリプトインデックスまたはステージフルスクリプトインデックスが完了した場合、関連するログを表示して、発生したエラーのトラブルシューティングを行うことができます。

ログをエクスポートしたり、保存したりすることはできません。 ただし、新しいインデックスが発生するまで、ログは引き続き閲覧可能です。

ライブWebサイトまたはステージングされたWebサイトの増分インデックスログを表示するには

  1. 製品メニューで、次のいずれかの操作を行います。

    • Click Index > Scripted Index > Live Log.

    • Click Index > Scripted Index > Staged Log.

  2. ログページの上部または下部で、次のいずれかの操作を行います。

    • ナビゲーションオプション First、、、、 Prev​またはを使用して、ログ内 NextLastGo to line を移動します。

    • 表示オプション Errors onlyWrap line​または Show を使用して、表示内容を調整します。

このページ