Sobre o menu Filtragem

Use o menu Filtragem para usar scripts que alteram o conteúdo de um documento da Web antes de ser indexado.

Sobre a filtragem do script

Você pode usar Filtering Script para alterar o conteúdo de um documento da Web antes que ele seja indexado.

Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em um URL do documento, tipo MIME e conteúdo existente. O script de filtragem é um script Perl, que oferece uma manipulação poderosa de sequências de caracteres e a flexibilidade da correspondência regular de expressões. Use o script de filtragem com um script de inicialização, um script de terminação, um script de máscaras de URL e um URL de teste.

O script de filtragem é executado sempre que um documento é lido do site. O script é executado como um filtro padrão. Em outras palavras, lê dados de STDIN, transforma esses dados de alguma forma e grava os resultados em STDOUT. Você pode usar o script de filtragem para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens em STDERR ou por meio da subrotina _search_debug_log().

Algumas opções de diferf GNU que você pode usar no modo Expert (diff) na página Script de filtragem por etapas incluem:

Opção de diff GNU

Descrição

-b

Ignora alterações na quantidade de espaço em branco.

-B

Ignora alterações que inserem ou excluem linhas em branco.

-c

Usa o formato de saída de contexto, mostrando três linhas de contexto.

Linhas C

Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.

-i

Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.

-f

Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.

-n

Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas afetadas.

-u

Usa o formato de saída unificado, mostrando três linhas de contexto.

Linhas -U

Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.

É possível usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais recebem o prefácio da namespace "main::". Quando o script de filtragem é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:

  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - HTML de substituição (se os dados forem impressos em STDOUT, serão usados no lugar do documento original)
  • STDERR - os dados impressos em STDERR são impressos no log de índice como um erro

Além disso, você pode gravar mensagens personalizadas no log de índice usando a subrotina _search_debug_log(), como no exemplo a seguir:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.

A seguir está um exemplo de filtragem. Os campos da página da Web <title> geralmente começam com o nome da empresa. Embora essas informações sejam úteis para fins de navegação do site, elas não são relevantes ao pesquisar. Se os títulos de todas as páginas da Web do MegaCorp forem start com uma sequência comum, como:

<title>MegaCorp -- meaningful title 
here</title>

Você deve remover " MegaCorp --" do início de cada título de documento e contar cada documento processado com o script de filtragem. Para fazer isso, você pode usar o seguinte script:

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variáveis globais

Você pode usar as seguintes variáveis em qualquer script de filtragem:

Variável Descrição
$main::search_crawl_type O valor de $main::search_crawl_type indica o tipo de operação de índice em andamento. Formulário obsoleto: $main::ws_crawl_type As operações de índice e os valores associados incluem o seguinte:
  • Índice completo: Manual - manual
  • Índice completo: Agendado - auto
  • Índice completo: Controle remoto - CGI
  • Índice Incremental: Manual - manual-incremental
  • Índice Incremental: Agendado - auto-incremental
  • Índice Incremental: Controle remoto - CGI-incremental
  • Índice de script: Manual - manual-indexlist.txt
  • Índice de script: Agendado - auto-indexlist.txt
  • Índice de script: Controle remoto - CGI-indexlist.txt
  • Regenerar - manual-upgrade
$main::search_clear_cache O valor indica se a opção de indexação "Limpar cache de índice" foi solicitada para a operação de índice atual. Se "Limpar cache de índice" for solicitado, o valor de $main::search_clear_cache será " 1". Forma obsoleta: $main::ws_clear_cache
$main::search_fields O valor contém uma lista separada por tabulação dos campos de metadados que são definidos na conta. Por padrão, o valor é: url title desc keys target body alt date charset language Formulário obsoleto: $main::ws_fields
$main::search_collections O valor contém uma lista separada por tabulações das Coleções definidas na conta. Forma obsoleta: $main::ws_collections
$main::search_url O valor é o URL totalmente qualificado do documento. Forma obsoleta: $main::ws_url
$main::search_content_type O valor é o tipo de conteúdo do documento obtido da tag meta http-equiv. Um valor típico é "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class O valor é a classe de conteúdo do documento, conforme derivada do campo tipo de conteúdo. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check O valor reflete o uso do botão "Verificar sintaxe". Se clicado, o valor é 1 (um); caso contrário, seu valor será 0 (zero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date Se fornecido pelo servidor Web, esse valor contém a representação Época (segundos desde 1º de janeiro de 1970) da data da última modificação do documento. Você pode formatar esse valor usando a chamada da biblioteca Perl localtime().

Dicas rápidas

  • Todas as variáveis globais recebem o prefácio da namespace "main:": $main::doc_count = 0;

  • Todas as variáveis locais são declaradas com "my": my $i = 0;

  • Subrotinas são definidas no script de inicialização. Eles não precisam de uma namespace "principal:" explícita: sub my_sub { ...

    }

  • Teste o $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudar a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type é o cabeçalho Content-Type completo fornecido pelo servidor. Às vezes, pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento não HTML, $main::search_content_type pode tomar vários valores. Testar cada valor em seu script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "application/msword", "application/vnd.ms-word" ou "application/x-msword". Nesses casos, $main::search_content_class pode usar os seguintes valores:

    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • text
  • No exemplo, testar $main::search_content_class para "word" corresponderia a qualquer um dos três valores possíveis do tipo de conteúdo.

  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisa mudar nada em um documento, então você não precisa copiar STDIN para STDOUT para esse documento.

  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de filtragem

O script de filtragem é um script Perl que é executado para cada documento baixado do site.

Use o script de filtragem juntamente com um script de inicialização, um script de terminação e um script de máscaras de URL.

Certifique-se de recriar o índice do site para que os resultados do script de filtragem fiquem visíveis aos clientes.

Consulte Configurar um índice incremental de um site preparado.

Para adicionar um script de filtragem

  1. No menu do produto, clique em Settings > Filtering > Filtering Script.

  2. (Opcional) Na página Filtering Script, no campo Test URL, insira o URL de um documento em seu site.

    Clique em uma opção de teste para ver as alterações no texto HTML bruto.

    Opção

    Descrição

    Campo URL de teste

    Permite inserir o URL de um documento em seu site.

    Teste

    Testa o URL em relação aos scripts de filtragem e máscaras de URL.

    O documento de URL de teste é baixado, que é usado como entrada STDIN para o script de filtragem. Os scripts de inicialização, filtragem e encerramento são executados. Se houver alguma saída STDOUT do script de filtragem, essa saída será exibida em uma nova janela do navegador.

    Testar apenas

    Testa apenas a operação do script.

    Visualizar

    Permite que você visualização a página.

    Visual completo

    Gera uma visualização de tabela antes e depois dos documentos.

    Visual curto

    Mostra somente as diferenças entre as visualizações anteriores e posteriores.

    Especialista (diff)

    Exibe a saída bruta do comando GNU diff usado para comparar os arquivos, usando as opções de linha de comando fornecidas.

    Script de filtragem

    Permite colar o script de filtragem no campo fornecido.

    Salvar alterações

    Salva o script de filtragem.

    Verificar sintaxe

    Permite que você faça uma verificação rápida da sintaxe do script executando os scripts de inicialização, filtragem e encerramento. Ele não atualiza e salva seu script.

    Todos os erros e avisos do compilador Perl e toda a saída STDERR são impressos.

    Antes que os efeitos do script fiquem visíveis para os clientes, é necessário recriar o índice do site.

    Opções de linha de comando de comparação GNU

    Algumas opções de diferf GNU que você pode usar no modo Expert (diff) na página Script de filtragem por etapas incluem:

    Opção de linha de comando de diff GNU

    Descrição

    -b

    Ignora alterações na quantidade de espaço em branco.

    -B

    Ignora alterações que inserem ou excluem linhas em branco.

    -c

    Usa o formato de saída de contexto, mostrando três linhas de contexto.

    Linhas C

    Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.

    -i

    Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.

    -f

    Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.

    -n

    Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas afetadas.

    -u

    Usa o formato de saída unificado, mostrando três linhas de contexto.

    Linhas -U

    Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.

  3. Clique em Test para testar os scripts de filtragem e as máscaras de URL.

    Clicar em Test não atualiza e salva o script de filtragem.

  4. No campo Filtering Script, cole o script.

  5. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de filtragem, inicialização e encerramento.

    Check Syntax não atualiza e salva o script.

  6. Clique em Save Changes.

  7. (Opcional) Reconstrua o índice do site preparado se desejar pré-visualização nos resultados.

    Consulte Configurar um índice incremental de um site preparado.

  8. (Opcional) Na página Filtering Script, execute um dos procedimentos a seguir:

Sobre o script de inicialização

Você pode usar Initialization Script para alterar o conteúdo de um documento da Web antes que ele seja indexado.

Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em um URL do documento, tipo MIME e conteúdo existente. O script de inicialização é um script Perl, que oferece uma manipulação poderosa de sequência de caracteres e a flexibilidade da correspondência regular de expressões. Use o script de inicialização com um script de filtragem, um script de terminação, um script de máscaras de URL e um URL de teste.

O script de inicialização é executado uma vez antes do início da indexação. Use esse script para inicializar variáveis e sub-rotinas globais usadas pelo script de filtragem. Você pode usar o script de inicialização para imprimir mensagens de status do script de filtragem para o log de índice. Imprima as mensagens para STDERR ou por meio da subrotina _search_debug_log().

Algumas opções de diferf GNU que você pode usar no modo Expert (diff) na página Script de inicialização avançada incluem:

Opção de diff GNU

Descrição

-b

Ignora alterações na quantidade de espaço em branco.

-B

Ignora alterações que inserem ou excluem linhas em branco.

-c

Usa o formato de saída de contexto, mostrando três linhas de contexto.

Linhas C

Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.

-i

Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.

-f

Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.

-n

Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas afetadas.

-u

Usa o formato de saída unificado, mostrando três linhas de contexto.

Linhas -U

Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.

É possível usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais recebem o prefácio da namespace "main::". Quando o script de inicialização é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:

  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - nada (se os dados forem impressos em STDOUT, serão eliminados)
  • STDERR - os dados impressos em STDERR são impressos no log de índice como um erro

Além disso, você pode gravar mensagens personalizadas no log de índice usando a subrotina _search_debug_log(), como no exemplo a seguir:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.

Um exemplo de script de inicialização é o seguinte:

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Consulte Variáveis Globais

Dicas rápidas

  • Todas as variáveis globais recebem o prefácio da namespace "main:": $main::doc_count = 0;

  • Todas as variáveis locais são declaradas com "my": my $i = 0;

  • Subrotinas são definidas no script de inicialização. Eles não precisam de uma namespace "principal:" explícita: sub my_sub { ...

    }

  • Teste o $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudar a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type é o cabeçalho Content-Type completo fornecido pelo servidor. Às vezes, pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento não HTML, $main::search_content_type pode tomar vários valores. Testar cada valor em seu script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "application/msword", "application/vnd.ms-word" ou "application/x-msword". Nesses casos, $main::search_content_class pode usar os seguintes valores:

    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • texto
  • No exemplo, testar $main::search_content_class para "word" corresponderia a qualquer um dos três valores possíveis do tipo de conteúdo.

  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisa mudar nada em um documento, então você não precisa copiar STDIN para STDOUT para esse documento.

  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionando um script de inicialização

O script de inicialização é um script Perl que é executado uma vez antes de qualquer documentos ser indexado.

Use o script de inicialização juntamente com um script de filtragem, um script de terminação e um script de máscaras de URL.

Certifique-se de recriar o índice do site para que os resultados do script de inicialização fiquem visíveis aos clientes.

Consulte Configurar um índice incremental de um site preparado.

Para adicionar um script de inicialização

  1. No menu do produto, clique em Settings > Filtering > Initialization Script.

  2. (Opcional) Na página Initialization Script, no campo Test URL, insira o URL de um documento em seu site.

    Clique em uma opção de teste para ver as alterações no texto HTML bruto.

    Consulte a tabela de opções de filtragem em Adicionar um script de filtragem.

    Clique em Test para testar os scripts de filtragem e as máscaras de URL.

    Clicar em Test não atualiza e salva o script de inicialização.

  3. No campo Initialization Script, cole o script.

  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de filtragem, inicialização e encerramento.

    Check Syntax não atualiza e salva o script.

  5. Clique em Save Changes.

  6. (Opcional) Reconstrua o índice do site preparado se desejar pré-visualização nos resultados.

    Consulte Configurar um índice incremental de um site preparado.

  7. (Opcional) Na página Initialization Script, execute um dos procedimentos a seguir:

Sobre o script de terminação

Você pode usar Termination Script para alterar o conteúdo de um documento da Web antes que ele seja indexado.

Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em um URL do documento, tipo MIME e conteúdo existente. O script de inicialização é um script Perl, que oferece uma manipulação poderosa de sequência de caracteres e a flexibilidade da correspondência regular de expressões. Use o script de terminação com um script de inicialização, script de filtragem, script de terminação, script de máscaras de URL e URL de teste.

O script de terminação é executado uma vez depois que todos os documentos são indexados. Você pode usar o script de terminação para imprimir mensagens de status do script de filtragem para o log de índice. Imprima as mensagens para STDERR ou por meio da subrotina _search_debug_log().

Algumas opções de linha de comando diff GNU que você pode usar no modo Expert (diff) na página Script de terminação de estágio incluem o seguinte:

Opção de linha de comando de diff GNU

Descrição

-b

Ignora alterações na quantidade de espaço em branco.

-B

Ignora alterações que inserem ou excluem linhas em branco.

-c

Usa o formato de saída de contexto, mostrando três linhas de contexto.

Linhas C

Usa o formato de saída de contexto, mostrando linhas (um número inteiro) linhas de contexto ou três se as linhas não forem fornecidas.

-i

Ignora alterações em caso de ocorrência; considere letras maiúsculas e minúsculas equivalentes.

-f

Faz uma saída com aparência semelhante a um script ed, mas com alterações na ordem em que aparecem no arquivo.

-n

Gera os diffs em formato RCS; like -f , exceto que cada comando especifica o número de linhas afetadas.

-u

Usa o formato de saída unificado, mostrando três linhas de contexto.

Linhas -U

Usa o formato de saída unificado, mostrando linhas (um número inteiro) de contexto ou três se as linhas não forem fornecidas.

É possível usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais recebem o prefácio da namespace "main::". Quando o script de terminação é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:

  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - nada (se os dados forem impressos em STDOUT, serão eliminados)
  • STDERR - os dados impressos em STDERR são impressos no registro de índice como um erro

Além disso, você pode gravar mensagens personalizadas no log de índice usando a subrotina _search_debug_log(), como no exemplo a seguir:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.

Para exibir o número de documentos que foram processados pelo script de filtragem como uma linha de erro no log de índice, você pode usar o seguinte script de terminação:

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Consulte Variáveis Globais

Dicas rápidas

  • Todas as variáveis globais recebem o prefácio da namespace "main:": $main::doc_count = 0;

  • Todas as variáveis locais são declaradas com "my": my $i = 0;

  • Subrotinas são definidas no script de inicialização. Eles não precisam de uma namespace "principal:" explícita: sub my_sub { ...

    }

  • Teste o $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudar a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type é o cabeçalho Content-Type completo fornecido pelo servidor. Às vezes, pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento não HTML, $main::search_content_type pode tomar vários valores. Testar cada valor em seu script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "application/msword", "application/vnd.ms-word" ou "application/x-msword". Nesses casos, $main::search_content_class pode usar os seguintes valores:

    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • texto
  • No exemplo, testar $main::search_content_class para "word" corresponderia a qualquer um dos três valores possíveis do tipo de conteúdo.

  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisa mudar nada em um documento, então você não precisa copiar STDIN para STDOUT para esse documento.

  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de terminação

O script de terminação é um script Perl que é executado uma vez depois que todos os documentos são indexados.

Use o script de terminação juntamente com um script de filtragem, um script de terminação e um script de máscaras de URL.

Certifique-se de recriar o índice do site para que os resultados do script de inicialização fiquem visíveis aos clientes.

Consulte Configurar um índice incremental de um site preparado.

Para adicionar um script de terminação

  1. No menu do produto, clique em Settings > Filtering > Termination Script.

  2. (Opcional) Na página Termination Script, no campo Test URL, insira o URL de um documento em seu site.

    Clique em uma opção de teste para ver as alterações no texto HTML bruto.

    Consulte a tabela de opções de filtragem em Adicionar um script de filtragem.

    Clique em Test para testar os scripts de filtragem e as máscaras de URL.

    Clicar em Test não atualiza e salva o script de terminação.

  3. No campo Termination Script, cole o script.

  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script executando os scripts de inicialização, filtragem e encerramento.

    Check Syntax não atualiza e salva o script.

  5. Clique em Save Changes.

  6. (Opcional) Reconstrua o índice do site preparado se desejar pré-visualização nos resultados.

    Consulte Configurar um índice incremental de um site preparado.

  7. (Opcional) Na página Termination Script, execute um dos procedimentos a seguir:

Sobre o script de máscaras de URL

Com a filtragem, você pode alterar o conteúdo de um documento da Web antes que ele seja indexado. Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em um URL do documento, tipo MIME e conteúdo existente. O script de máscaras de URL é um script Perl que fornece uma manipulação avançada de sequência de caracteres e a flexibilidade da correspondência regular de expressões.

Para alterar o conteúdo dos documentos que existem apenas em uma parte específica do site, você pode especificar incluir máscaras de URL, excluir máscaras de URL ou ambas, para definir as páginas apropriadas.

Se quiser alterar apenas os documentos em "https://www.mysite.com/faqs/", você pode usar o seguinte conjunto de máscaras:

include https://www.mysite.com/faqs/ 
exclude *

Você também pode usar expressão normal em um script de máscara de URL, como no exemplo a seguir:

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Consulte Expressões regulares.

As máscaras de URL com script são consideradas na ordem em que foram inseridas no campo URL Masks. Quando um URL de documento corresponde a uma máscara, esse documento é incluído ou excluído com base no tipo de máscara. Se o URL de um documento não corresponder a nenhuma máscara de URL, o documento será incluído somente se seu tipo MIME for "text/html". Todos os outros tipos MIME são excluídos.

Adicionar um script de máscara de URL

Especifique o URL para incluir máscaras e excluir máscaras para alterar o conteúdo de documentos que existem somente em uma parte específica do site.

Antes que os efeitos das configurações de Máscaras de URL fiquem visíveis aos visitantes, recrie o índice do site.

Para adicionar um script de máscara de URL

  1. No menu do produto, clique em Settings > Filtering > URL Masks.

  2. (Opcional) Na página URL Masks, no campo Test URL, insira um URL de um documento em seu site e clique em Test para testar o URL em relação aos scripts e máscaras de filtragem.

    O documento de URL de teste é baixado, que é usado como entrada STDIN para o script de filtragem. Em seguida, os scripts de filtragem, inicialização e encerramento são executados. Se houver alguma saída STDOUT do script de filtragem, essa saída será exibida em uma nova janela do navegador.

    Clicar em Test não atualiza e salva o script.

  3. No campo URL Masks, insira uma máscara de URL por linha.

  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe das máscaras de URL executando os scripts de filtragem, inicialização e encerramento.

    Check Syntax não atualiza e salva o script.

  5. Clique em Save Changes.

  6. (Opcional) Reconstrua o índice do site preparado se desejar pré-visualização nos resultados.

    Consulte Configurar um índice incremental de um site preparado.

  7. (Opcional) Na página URL Masks, execute um dos procedimentos a seguir:

Sobre tipos de conteúdo na filtragem

Permite selecionar quais tipos de conteúdo você deseja filtrar para esta conta.

O texto encontrado nos tipos de conteúdo selecionados é convertido em HTML e, em seguida, processado usando o script especificado em Filtrar script.

Consulte Sobre o script de filtragem.

Os Tipos de conteúdo que podem ser selecionados incluem:

  • DOCUMENTOS PDF
  • Documentos de texto
  • filmes com Flash Adobe
  • Arquivos do Microsoft Word
  • Arquivos do Microsoft Office (OpenXML)
  • Arquivos do Microsoft Excel
  • Arquivos do Microsoft PowerPoint
  • Texto em arquivos de música MP3

Antes que os efeitos das configurações de Tipos de conteúdo ou das alterações nas configurações fiquem visíveis para os clientes, é necessário recriar o índice do site.

Selecionar os tipos de conteúdo que são filtrados

Selecione os tipos de conteúdo que você deseja passar para o script especificado no Script de filtragem.

Consulte Sobre o script de filtragem.

Para selecionar os tipos de conteúdo que são filtrados

  1. No menu do produto, clique em Settings > Filtering > Content Types.

  2. Na página Content Types, verifique os tipos de conteúdo que deseja passar para o script de filtro.

  3. Clique em Save Changes.

  4. (Opcional) Reconstrua o índice do site preparado se desejar pré-visualização nos resultados.

    Consulte Configurar um índice incremental de um site preparado.

  5. (Opcional) Na página Content Types, execute um dos procedimentos a seguir:

Nesta página