フィルタリングメニューについて

フィルタリングメニューを使用して、Webドキュメントーのコンテンツを変更してからインデックスを作成するスクリプトを使用します。

フィルタリングスクリプトについて

Filtering Scriptを使用すると、Webドキュメントのインデックスを作成する前に、Webコンテンツを変更できます。

ドキュメントのURL、MIMEタイプおよび既存のコンテンツに基づいて、HTMLタグの挿入、無関係なコンテンツの削除、新しいHTMLメタデータの作成を行うこともできます。 フィルタリングスクリプトはPerlスクリプトで、強力な文字列処理と正規式のマッチングの柔軟性を提供します。 フィルタリングスクリプトは、初期化スクリプト、終了スクリプト、URLマスクスクリプト、およびテストURLと共に使用します。

フィルタリングスクリプトは、ドキュメントがWebサイトから読み取られるたびに実行されます。 スクリプトは、標準フィルタとして実行されます。つまり、は、STDINからデータを読み取り、そのデータを何らかの方法で変換し、結果をSTDOUTに書き込みます。 フィルタリングスクリプトを使用すると、フィルタリングスクリプトからインデックスログにステータスメッセージを印刷できます。 メッセージはSTDERRに出力するか、_search_debug_log()サブルーチンを使用して出力します。

Staged Filtering Scriptページの​Expert (diff)​モードで使用できるGNU diffオプションの一部は、次のようになります。

GNU diffオプション

説明

-b

空白の大きさの変更を無視します。

-B

空白行を挿入または削除した変更を無視します。

-c

コンテキスト出力形式を使用し、3行のコンテキストを表示します。

-C行

コンテキストの行(整数)を表示する、または行を指定しない場合は3を表示する、コンテキスト出力形式を使用します。

-i

大文字と小文字の違いを無視する大文字と小文字は同じ意味を持ちます。

-f

edスクリプトに似ているが、ファイル内に表示される順序が変化する出力を作成します。

-n

RCS形式のdiffを出力します。 -f のように、各コマンドが影響を受ける行の数を指定する点が異なります。

-u

統合出力形式を使用し、3行のコンテキストを表示します。

-U線

統合出力形式を使用して、コンテキストの行(整数)を表示します。行を指定しない場合は3を表示します。

これらのスクリプトでは、ローカル変数、グローバル変数またはその両方を使用できます。 すべてのグローバル変数は、名前空間「main::」で始まります。 フィルタリングスクリプトを起動すると、環境に次の標準ファイルハンドルが含まれます。

  • STDIN — 何も返さない(読み込み時は直ちにEOFを返す)
  • STDOUT - HTMLの置き換え(データがSTDOUTに出力される場合は、元のドキュメントの代わりに使用されます)
  • STDERR - STDERRに出力されるデータは、エラーとしてインデックス・ログに出力されます。

また、次の例のように、_search_debug_log()サブルーチンを使用して、インデックスログにカスタムメッセージを書き込むこともできます。

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

これらのメッセージは、序文としてDEBUGという単語で表示され、エラーとして記録されません。

次に、フィルターの例を示します。 Webページ<title>のフィールドは、多くの場合、会社名で始まります。 この情報はサイトのナビゲーションの目的に役立ちますが、検索時には関係ありません。 次のように、共通の文字列を含むすべてのMegaCorp Webページ開始のタイトル。

<title>MegaCorp -- meaningful title 
here</title>

各ドキュメントのタイトルの先頭から「MegaCorp --」を削除し、フィルタリングスクリプトで処理された各ドキュメントをカウントする必要があります。 これを行うには、次のスクリプトを使用します。

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

グローバル変数

フィルタリングスクリプトでは、次の変数を使用できます。

変数 説明
$main::search_crawl_type $main::search_crawl_typeの値は、進行中のインデックス操作の種類を示します。 非推奨フォーム:$main::ws_crawl_typeインデックス操作と関連する値には、次のものがあります。
  • 完全なインデックス:手動 — manual
  • 完全なインデックス:スケジュール済み — auto
  • 完全なインデックス:リモートコントロール — CGI
  • Incremental Index:手動 — manual-incremental
  • Incremental Index:スケジュール済み — auto-incremental
  • Incremental Index:リモートコントロール — CGI-incremental
  • スクリプトインデックス:手動 — manual-indexlist.txt
  • スクリプトインデックス:スケジュール済み — auto-indexlist.txt
  • スクリプトインデックス:リモートコントロール — CGI-indexlist.txt
  • 再生成 — manual-upgrade
$main::search_clear_cache この値は、現在のインデックス操作に対して「インデックスキャッシュをクリア」インデックスオプションが要求されたかどうかを示します。 "Clear index cache"が要求された場合、$main::search_clear_cacheの値は" 1"です。 廃止された形式:$main::ws_clear_cache
$main::search_fields この値には、アカウントで定義されているメタデータフィールドのタブ区切りリストが含まれます。 デフォルト値は次のとおりです。 url title desc keys target body alt date charset language非推奨フォーム:$main::ws_fields
$main::search_collections 値には、アカウントで定義されているコレクションのタブ区切りリストが含まれます。 廃止された形式:$main::ws_collections
$main::search_url 値は、ドキュメントの完全修飾URLです。 廃止された形式:$main::ws_url
$main::search_content_type 値は、http-equivメタタグから取得したドキュメントのコンテンツタイプです。 一般的な値は「text/html;charset=iso-8859-1". 廃止された形式:$main::ws_content_type
$main::search_content_class 値は、content-typeフィールドから派生する、ドキュメントのコンテンツクラスです。 廃止された形式:$main::ws_content_class
$main::search_syntax_check この値は、「構文をチェック」ボタンの使用を反映しています。 クリックした場合、値は1(1)です。それ以外の場合、値は0(ゼロ)です。 廃止された形式:$main::ws_syntax_check
$main::search_last_mod_date Webサーバーによって提供される場合、この値には、ドキュメントの最終変更日のエポック表現(1970年1月1日からの秒数)が含まれます。 この値は、Perl localtime()ライブラリの呼び出しを使用してフォーマットできます。

クイックヒント

  • すべてのグローバル変数は、名前空間「main::」で始まります。$main::doc_count = 0;

  • すべてのローカル変数は「my」で宣言されます。my $i = 0;

  • サブルーチンは、初期化スクリプトで定義します。 明示的な「main::」名前空間は必要ありません。sub my_sub { ...

    }

  • ファイルに変更を加える前に、$main::search_content_typeをテストしてください。 テストを行うと、SWFファイルやPDFファイルなどのバイナリファイルに不注意な変更を加えないようにできます。

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_typeは、サーバーから配信される完全なContent-Typeヘッダーです。 「text/html」など、単純なMIMEタイプを含めることができます。 または、MIMEタイプとその後にドキュメントの文字セットエンコーディングなどの他の情報を含めることもできます(「text/html;charset=iso-8859-1".

  • HTML以外のドキュメントのタイプごとに、$main::search_content_typeは様々な値を取ることができます。 スクリプト内の各値のテストは面倒になります。 例えば、一部のWordドキュメントのコンテンツタイプの値は、「application/msword」、「application/vnd.ms-word」、「application/x-msword」です。 このような場合、$main::search_content_classは次の値を取ることができます。

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • この例では、「word」に対して$main::search_content_classをテストすると、3つのcontent-type値のいずれかと一致します。

  • フィルタリングスクリプトからSTDOUTに何も出力されない場合は、ドキュメントはダウンロードされたとおりに使用されます。 つまり、ドキュメント内の変更が不要な場合は、そのドキュメントのSTDOUTにSTDINをコピーする必要はありません。

  • ドキュメントからすべてのテキストを削除する場合は、有効なファイルSTDOUTを印刷します。 例えば、HTMLドキュメントからすべてのテキストを完全に削除するには、次の操作を行います。print "<html></html>";

フィルタリングスクリプトの追加

フィルタリングスクリプトは、Webサイトからダウンロードされた各ドキュメントに対して実行されるPerlスクリプトです。

フィルタリングスクリプトは、初期化スクリプト、終了スクリプト、URLマスクスクリプトと組み合わせて使用します。

フィルタリングスクリプトの結果がユーザーに表示されるように、サイトインデックスを必ず再構築してください。

ステージングされたWebサイトの増分インデックスの設定」を参照してください。

フィルタリングスクリプトを追加するには

  1. 製品メニューで、Settings/Filtering/Filtering Script​をクリックします。

  2. (オプション)Filtering ScriptページのTest URLフィールドに、WebサイトのドキュメントのURLを入力します。

    テストオプションをクリックして、生のHTMLテキストの変更を表示します。

    オプション

    説明

    テストURLフィールド

    Webサイト上のドキュメントのURLを入力できます。

    テスト

    URLをフィルタリングスクリプトおよびURLマスクと比較してテストします。

    テストURLドキュメントがダウンロードされ、フィルタリングスクリプトへのSTDIN入力として使用されます。 その後、初期化、フィルタリング、終了スクリプトが実行されます。 フィルタリングスクリプトからのSTDOUT出力がある場合、その出力は新しいブラウザウィンドウに表示されます。

    テストのみ

    スクリプトの操作のみをテストします。

    プレビュー

    ページを表示できます。

    フルビジュアル

    ドキュメントの前後の完全なテーブル表示を生成します。

    短いビジュアル

    前後の表示の違いのみを表示します。

    エキスパート(相違)

    提供されたコマンドラインオプションを使用して、ファイルの比較に使用されるGNU diffコマンドの生の出力を表示します。

    フィルタリングスクリプト

    指定されたフィールドにフィルタースクリプトを貼り付けることができます。

    変更の保存

    フィルタリングスクリプトを保存します。

    構文をチェック

    初期化、フィルタリング、終了の各スクリプトを実行して、スクリプトの構文を簡単に確認できます。 スクリプトは更新および保存されません。

    すべてのPerlコンパイラのエラーと警告、およびすべてのSTDERR出力が出力されます。

    スクリプトの効果がユーザーに表示される前に、サイトインデックスを再構築する必要があります。

    GNU diffコマンドラインオプション

    Staged Filtering Scriptページの​Expert (diff)​モードで使用できるGNU diffオプションの一部は、次のようになります。

    GNU diffコマンドラインオプション

    説明

    -b

    空白の大きさの変更を無視します。

    -B

    空白行を挿入または削除した変更を無視します。

    -c

    コンテキスト出力形式を使用し、3行のコンテキストを表示します。

    -C行

    コンテキストの行(整数)を表示する、または行を指定しない場合は3を表示する、コンテキスト出力形式を使用します。

    -i

    大文字と小文字の違いを無視する大文字と小文字は同じ意味を持ちます。

    -f

    edスクリプトに似ているが、ファイル内に表示される順序が変化する出力を作成します。

    -n

    RCS形式のdiffを出力します。 -f のように、各コマンドが影響を受ける行の数を指定する点が異なります。

    -u

    統合出力形式を使用し、3行のコンテキストを表示します。

    -U線

    統合出力形式を使用して、コンテキストの行(整数)を表示します。行を指定しない場合は3を表示します。

  3. フィルタースクリプトとURLマスクに対してテストを行うには、Test​をクリックします。

    Test​をクリックしても、フィルタリングスクリプトは更新および保存されません。

  4. Filtering Scriptフィールドにスクリプトを貼り付けます。

  5. (オプション)Check Syntax​をクリックして、フィルタリング、初期化、終了の各スクリプトを実行し、スクリプトの簡単な構文チェックを実行します。

    Check Syntax は、スクリプトを更新および保存しません。

  6. クリック Save Changes.

  7. (オプション)結果をプレビューする場合は、ステージングされたサイトインデックスを再構築します。

    ステージングされたWebサイトの増分インデックスの設定」を参照してください。

  8. (オプション)Filtering Scriptページで、次のいずれかの操作を行います。

初期化スクリプトについて

Initialization Scriptを使用すると、Webドキュメントのインデックスを作成する前に、Webコンテンツを変更できます。

ドキュメントのURL、MIMEタイプおよび既存のコンテンツに基づいて、HTMLタグの挿入、無関係なコンテンツの削除、新しいHTMLメタデータの作成を行うこともできます。 初期化スクリプトはPerlスクリプトで、強力な文字列処理と正規式のマッチングの柔軟性を提供します。 初期化スクリプトは、フィルタリングスクリプト、終了スクリプト、URLマスクスクリプト、およびテストURLと共に使用します。

初期化スクリプトは、インデックス作成を開始する前に1回だけ実行されます。 次のスクリプトを使用して、フィルタリングスクリプトで使用するすべてのグローバル変数とサブルーチンを初期化します。 初期化スクリプトを使用して、フィルタリング・スクリプトからインデックス・ログにステータス・メッセージを印刷できます。 メッセージは、STDERRに出力するか、_search_debug_log()サブルーチンを介して出力します。

Staged Initialization Scriptページの​Expert (diff)​モードで使用できるGNU diffオプションの一部は、以下のとおりです。

GNU diffオプション

説明

-b

空白の大きさの変更を無視します。

-B

空白行を挿入または削除した変更を無視します。

-c

コンテキスト出力形式を使用し、3行のコンテキストを表示します。

-C行

コンテキストの行(整数)を表示する、または行を指定しない場合は3を表示する、コンテキスト出力形式を使用します。

-i

大文字と小文字の違いを無視する大文字と小文字は同じ意味を持ちます。

-f

edスクリプトに似ているが、ファイル内に表示される順序が変化する出力を作成します。

-n

RCS形式のdiffを出力します。 -f のように、各コマンドが影響を受ける行の数を指定する点が異なります。

-u

統合出力形式を使用し、3行のコンテキストを表示します。

-U線

統合出力形式を使用して、コンテキストの行(整数)を表示します。行を指定しない場合は3を表示します。

これらのスクリプトでは、ローカル変数、グローバル変数またはその両方を使用できます。 すべてのグローバル変数は、名前空間「main::」で始まります。 初期化スクリプトを起動すると、その環境には次の標準ファイル・ハンドルが含まれます。

  • STDIN — 何も返さない(読み込み時は直ちにEOFを返す)
  • STDOUT — 何も返しません(データがSTDOUTに出力される場合は、破棄されます)
  • STDERR - STDERRに出力されるデータは、エラーとしてインデックス・ログに出力されます。

また、次の例のように、_search_debug_log()サブルーチンを使用して、インデックスログにカスタムメッセージを書き込むこともできます。

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

これらのメッセージは、序文としてDEBUGという単語で表示され、エラーとして記録されません。

初期化スクリプトの例を次に示します。

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

グローバル変数を参照

クイックヒント

  • すべてのグローバル変数は、名前空間「main::」で始まります。$main::doc_count = 0;

  • すべてのローカル変数は「my」で宣言されます。my $i = 0;

  • サブルーチンは、初期化スクリプトで定義します。 明示的な「main::」名前空間は必要ありません。sub my_sub { ...

    }

  • ファイルに変更を加える前に、$main::search_content_typeをテストしてください。 テストを行うと、SWFファイルやPDFファイルなどのバイナリファイルに不注意な変更を加えないようにできます。

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_typeは、サーバーから配信される完全なContent-Typeヘッダーです。 「text/html」など、単純なMIMEタイプを含めることができます。 または、MIMEタイプとその後にドキュメントの文字セットエンコーディングなどの他の情報を含めることもできます(「text/html;charset=iso-8859-1".

  • HTML以外のドキュメントのタイプごとに、$main::search_content_typeは様々な値を取ることができます。 スクリプト内の各値のテストは面倒になります。 例えば、一部のWordドキュメントのコンテンツタイプの値は、「application/msword」、「application/vnd.ms-word」、「application/x-msword」です。 このような場合、$main::search_content_classは次の値を取ることができます。

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • この例では、「word」に対して$main::search_content_classをテストすると、3つのcontent-type値のいずれかと一致します。

  • フィルタリングスクリプトからSTDOUTに何も出力されない場合は、ドキュメントはダウンロードされたとおりに使用されます。 つまり、ドキュメント内の変更が不要な場合は、そのドキュメントのSTDOUTにSTDINをコピーする必要はありません。

  • ドキュメントからすべてのテキストを削除する場合は、有効なファイルSTDOUTを印刷します。 例えば、HTMLドキュメントからすべてのテキストを完全に削除するには、次の操作を行います。print "<html></html>";

初期化スクリプトの追加

初期化スクリプトは、ドキュメントのインデックスが作成される前に1回実行されるPerlスクリプトです。

初期化スクリプトは、フィルタリングスクリプト、終了スクリプト、URLマスクスクリプトと組み合わせて使用します。

初期化スクリプトの結果がユーザーに表示されるように、サイトのインデックスを必ず再構築してください。

ステージングされたWebサイトの増分インデックスの設定」を参照してください。

初期化スクリプトを追加するには

  1. 製品メニューで、Settings/Filtering/Initialization Script​をクリックします。

  2. (オプション)Initialization ScriptページのTest URLフィールドに、WebサイトのドキュメントのURLを入力します。

    テストオプションをクリックして、生のHTMLテキストの変更を表示します。

    フィルタリングスクリプトの追加」のフィルタリングオプションの表を参照してください。

    フィルタースクリプトとURLマスクに対してテストを行うには、Test​をクリックします。

    Test​をクリックしても、初期化スクリプトは更新および保存されません。

  3. Initialization Scriptフィールドにスクリプトを貼り付けます。

  4. (オプション)Check Syntax​をクリックして、フィルタリング、初期化、終了の各スクリプトを実行し、スクリプトの簡単な構文チェックを実行します。

    Check Syntax は、スクリプトを更新および保存しません。

  5. クリック Save Changes.

  6. (オプション)結果をプレビューする場合は、ステージングされたサイトインデックスを再構築します。

    ステージングされたWebサイトの増分インデックスの設定」を参照してください。

  7. (オプション)Initialization Scriptページで、次のいずれかの操作を行います。

終了スクリプトについて

Termination Scriptを使用すると、Webドキュメントのインデックスを作成する前に、Webコンテンツを変更できます。

ドキュメントのURL、MIMEタイプおよび既存のコンテンツに基づいて、HTMLタグの挿入、無関係なコンテンツの削除、新しいHTMLメタデータの作成を行うこともできます。 初期化スクリプトはPerlスクリプトで、強力な文字列処理と正規式のマッチングの柔軟性を提供します。 初期化スクリプト、フィルタリングスクリプト、終了スクリプト、URLマスクスクリプト、およびテストURLで、終了スクリプトを使用します。

終了スクリプトは、すべてのドキュメントのインデックスが作成された後に1回実行されます。 終了スクリプトを使用すると、フィルタリングスクリプトからインデックスログにステータスメッセージを印刷できます。 メッセージは、STDERRに出力するか、_search_debug_log()サブルーチンを介して出力します。

GNU diffコマンドラインオプションの一部は、Staged Termination Scriptページの​Expert (diff)​モードで使用できますが、以下を含みます。

GNU diffコマンドラインオプション

説明

-b

空白の大きさの変更を無視します。

-B

空白行を挿入または削除した変更を無視します。

-c

コンテキスト出力形式を使用し、3行のコンテキストを表示します。

-C行

コンテキストの行(整数)を表示する、または行を指定しない場合は3を表示する、コンテキスト出力形式を使用します。

-i

大文字と小文字の違いを無視する大文字と小文字は同じ意味を持ちます。

-f

edスクリプトに似ているが、ファイル内に表示される順序が変化する出力を作成します。

-n

RCS形式のdiffを出力します。 -f のように、各コマンドが影響を受ける行の数を指定する点が異なります。

-u

統合出力形式を使用し、3行のコンテキストを表示します。

-U線

統合出力形式を使用して、コンテキストの行(整数)を表示します。行を指定しない場合は3を表示します。

これらのスクリプトでは、ローカル変数、グローバル変数またはその両方を使用できます。 すべてのグローバル変数は、名前空間「main::」で始まります。 終了スクリプトを起動すると、環境に次の標準ファイルハンドルが含まれます。

  • STDIN — 何も返さない(読み込み時は直ちにEOFを返す)
  • STDOUT — 何も返しません(データがSTDOUTに出力される場合は、破棄されます)
  • STDERR - STDERRに出力されるデータは、エラーとしてインデックス・ログに出力されます。

また、次の例のように、_search_debug_log()サブルーチンを使用して、インデックスログにカスタムメッセージを書き込むこともできます。

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

これらのメッセージは、序文としてDEBUGという単語で表示され、エラーとして記録されません。

フィルタリングスクリプトによって処理されたドキュメントの数をインデックスログのエラー行として表示するには、次の終了スクリプトを使用します。

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

グローバル変数を参照

クイックヒント

  • すべてのグローバル変数は、名前空間「main::」で始まります。$main::doc_count = 0;

  • すべてのローカル変数は「my」で宣言されます。my $i = 0;

  • サブルーチンは、初期化スクリプトで定義します。 明示的な「main::」名前空間は必要ありません。sub my_sub { ...

    }

  • ファイルに変更を加える前に、$main::search_content_typeをテストしてください。 テストを行うと、SWFファイルやPDFファイルなどのバイナリファイルに不注意な変更を加えないようにできます。

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_typeは、サーバーから配信される完全なContent-Typeヘッダーです。 「text/html」など、単純なMIMEタイプを含めることができます。 または、MIMEタイプとその後にドキュメントの文字セットエンコーディングなどの他の情報を含めることもできます(「text/html;charset=iso-8859-1".

  • HTML以外のドキュメントのタイプごとに、$main::search_content_typeは様々な値を取ることができます。 スクリプト内の各値のテストは面倒になります。 例えば、一部のWordドキュメントのコンテンツタイプの値は、「application/msword」、「application/vnd.ms-word」、「application/x-msword」です。 このような場合、$main::search_content_classは次の値を取ることができます。

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • この例では、「word」に対して$main::search_content_classをテストすると、3つのcontent-type値のいずれかと一致します。

  • フィルタリングスクリプトからSTDOUTに何も出力されない場合は、ドキュメントはダウンロードされたとおりに使用されます。 つまり、ドキュメント内の変更が不要な場合は、そのドキュメントのSTDOUTにSTDINをコピーする必要はありません。

  • ドキュメントからすべてのテキストを削除する場合は、有効なファイルSTDOUTを印刷します。 例えば、HTMLドキュメントからすべてのテキストを完全に削除するには、次の操作を行います。print "<html></html>";

終了スクリプトの追加

終了スクリプトは、すべてのドキュメントのインデックスが作成された後に1回実行されるPerlスクリプトです。

終了スクリプトは、フィルタリングスクリプト、終了スクリプト、およびURLマスクスクリプトと組み合わせて使用します。

初期化スクリプトの結果がユーザーに表示されるように、サイトのインデックスを必ず再構築してください。

ステージングされたWebサイトの増分インデックスの設定」を参照してください。

終了スクリプトを追加するには

  1. 製品メニューで、Settings/Filtering/Termination Script​をクリックします。

  2. (オプション)Termination ScriptページのTest URLフィールドに、WebサイトのドキュメントのURLを入力します。

    テストオプションをクリックして、生のHTMLテキストの変更を表示します。

    フィルタリングスクリプトの追加」のフィルタリングオプションの表を参照してください。

    フィルタースクリプトとURLマスクに対してテストを行うには、Test​をクリックします。

    Test​をクリックしても、終了スクリプトは更新および保存されません。

  3. Termination Scriptフィールドにスクリプトを貼り付けます。

  4. (オプション)Check Syntax​をクリックして、初期化、フィルタリング、終了スクリプトを実行し、スクリプトの簡単な構文チェックを実行します。

    Check Syntax は、スクリプトを更新および保存しません。

  5. クリック Save Changes.

  6. (オプション)結果をプレビューする場合は、ステージングされたサイトインデックスを再構築します。

    ステージングされたWebサイトの増分インデックスの設定」を参照してください。

  7. (オプション)Termination Scriptページで、次のいずれかの操作を行います。

URLマスクスクリプトについて

フィルタリングを使用すると、Webドキュメントーのコンテンツを変更してからインデックスを作成できます。 ドキュメントのURL、MIMEタイプおよび既存のコンテンツに基づいて、HTMLタグの挿入、無関係なコンテンツの削除、新しいHTMLメタデータの作成を行うこともできます。 URLマスクスクリプトは、強力な文字列処理と正規式のマッチングの柔軟性を提供するPerlスクリプトです。

Webサイトの特定の部分にのみ存在するドキュメントのコンテンツを変更するには、URLマスクを含める、URLマスクを除外する、またはその両方を指定して、適切なページを定義します。

"https://www.mysite.com/faqs/"の下のドキュメントのみを変更する場合は、次のマスクを使用できます。

include https://www.mysite.com/faqs/ 
exclude *

次の例のように、URLマスクスクリプトで正規式を使用することもできます。

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

正規式を参照してください。

スクリプト化されたURLマスクは、URL Masksフィールドに入力した順に考慮されます。 ドキュメントURLがマスクに一致する場合、そのドキュメントはマスクの種類に基づいて含められるか、除外されます。 ドキュメントのURLがURLマスクと一致しない場合、ドキュメントは、そのMIMEタイプが「text/html」の場合にのみ含まれます。 その他のMIMEタイプはすべて除外されます。

URLマスクスクリプトの追加

マスクを含むURLとマスクを除外を指定して、Webサイトの特定の部分にのみ存在するドキュメントのコンテンツを変更します。

URLマスク設定の効果が訪問者に表示される前に、サイトのインデックスを作成し直してください。

URLマスクスクリプトを追加するには

  1. 製品メニューで、Settings/Filtering/URL Masks​をクリックします。

  2. (オプション)URL MasksページのTest URLフィールドに、Webサイト上のドキュメントのURLを入力し、Test​をクリックして、URLをフィルタリングスクリプトおよびマスクと比較してテストします。

    テストURLドキュメントがダウンロードされ、フィルタリングスクリプトへのSTDIN入力として使用されます。 次に、フィルタリング、初期化、終了スクリプトが実行されます。 フィルタリングスクリプトからのSTDOUT出力がある場合、その出力は新しいブラウザウィンドウに表示されます。

    Test​をクリックしても、スクリプトは更新および保存されません。

  3. URL Masksフィールドに、1行につき1つのURLマスクを入力します。

  4. (オプション)Check Syntax​をクリックして、フィルタリング、初期化、終了の各スクリプトを実行し、URLマスクの簡単な構文チェックを実行します。

    Check Syntax は、スクリプトを更新および保存しません。

  5. クリック Save Changes.

  6. (オプション)結果をプレビューする場合は、ステージングされたサイトインデックスを再構築します。

    ステージングされたWebサイトの増分インデックスの設定」を参照してください。

  7. (オプション)URL Masksページで、次のいずれかの操作を行います。

フィルタリングのコンテンツタイプについて

このアカウント用にフィルターを適用するコンテンツタイプを選択できます。

選択したコンテンツタイプ内のテキストはHTMLに変換され、フィルタリングスクリプトで指定したスクリプトを使用して処理されます。

フィルタリングスクリプトについてを参照してください。

次のコンテンツタイプから選択できます。

  • PDFドキュメント
  • テキストドキュメント
  • AdobeFlashムービー
  • Microsoft Wordファイル
  • Microsoft Officeファイル(OpenXML)
  • Microsoft Excelファイル
  • Microsoft Powerpointファイル
  • MP3ミュージックファイル内のテキスト

ユーザーがコンテンツタイプ設定や設定の変更を表示できるようにするには、サイトインデックスを作成し直す必要があります。

フィルターを適用するコンテンツタイプの選択

フィルタースクリプトで指定したスクリプトに渡すコンテンツタイプを選択します。

フィルタリングスクリプトについてを参照してください。

フィルタリングするコンテンツタイプを選択するには

  1. 製品メニューで、Settings/Filtering/Content Types​をクリックします。

  2. Content Typesページで、フィルタースクリプトに渡すコンテンツタイプを確認します。

  3. クリック Save Changes.

  4. (オプション)結果をプレビューする場合は、ステージングされたサイトインデックスを再構築します。

    ステージングされたWebサイトの増分インデックスの設定」を参照してください。

  5. (オプション)Content Typesページで、次のいずれかの操作を行います。

このページ