Sobre o menu Filtragem

Use o menu Filtragem para usar scripts que alteram o conteúdo de um documento da Web antes de ele ser indexado.

Sobre o script de filtragem

Você pode usar Filtering Script para alterar o conteúdo de um documento da Web antes que ele seja indexado.

Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em URL de um documento, tipo MIME e conteúdo existente. O script de filtragem é um script Perl, que fornece manuseio poderoso de strings e flexibilidade de correspondência regular de expressões. Você usa o script de filtragem com um script de inicialização, script de terminação, script de máscaras de URL e URL de teste.

O script de filtragem é executado sempre que um documento é lido do site. O script é executado como um filtro padrão, em outras palavras, lê dados de STDIN, transforma esses dados de alguma forma e grava os resultados em STDOUT. Você pode usar o script de filtragem para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens para STDERR ou por meio da sub-rotina _search_debug_log().

Algumas opções de diferencial de GNU que podem ser usadas no modo Expert (diff) na página Script de filtragem preparada incluem:

Opção de diferencial GNU

Descrição

-b

Ignora alterações na quantidade de espaço em branco.

-B

Ignora alterações que inserem ou excluem linhas em branco.

-c

Usa o formato de saída do contexto, mostrando três linhas de contexto.

Linhas -C

Usa o formato de saída do contexto, mostrando linhas (um número inteiro) de contexto ou três linhas se não forem fornecidas.

-i

Ignora alterações em caso de; considere letras maiúsculas e minúsculas equivalentes.

-f

Torna a saída semelhante a um script de ed, mas com alterações na ordem em que aparecem no arquivo.

-n

Gera diffs no formato RCS; como -f exceto que cada comando especifica o número de linhas afetadas.

-u

Usa o formato de saída unificado, mostrando três linhas de contexto.

Linhas -U

Usa o formato de saída unificado, mostrando linhas (um inteiro) de contexto ou três se linhas não forem fornecidas.

Você pode usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais são precedidas pelo namespace "main::". Quando o script de filtragem é iniciado, seu ambiente contém os seguintes identificadores de arquivos padrão:

  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - HTML de substituição (se os dados forem impressos em STDOUT, ele será usado no lugar do documento original)
  • STDERR - os dados impressos em STDERR são impressos no Log de Índice como um erro

Além disso, você pode gravar mensagens personalizadas no log de índice usando a sub-rotina _search_debug_log(), como no exemplo a seguir:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.

Veja a seguir um exemplo de filtragem. Os campos da página da Web <title> geralmente começam com o nome da empresa. Embora essas informações sejam úteis para fins de navegação no site, elas não são relevantes ao pesquisar. Se os títulos de todas as páginas da Web do MegaCorp começarem com uma string comum, como a seguinte:

<title>MegaCorp -- meaningful title 
here</title>

Você deve remover " MegaCorp --" do início de cada título de documento e contar cada documento processado com o script de filtragem. Para fazer isso, é possível usar o seguinte script:

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variáveis globais

Você pode usar as seguintes variáveis em qualquer script de filtragem:

Variável Descrição
$main::search_crawl_type O valor de $main::search_crawl_type indica o tipo de operação de índice em andamento. Formulário obsoleto: $main::ws_crawl_type As operações de índice e os valores associados incluem o seguinte:
  • Índice completo: Manual - manual
  • Índice completo: Agendado - auto
  • Índice completo: Controle remoto - CGI
  • Índice incremental: Manual - manual-incremental
  • Índice incremental: Agendado - auto-incremental
  • Índice incremental: Controle remoto - CGI-incremental
  • Índice com script: Manual - manual-indexlist.txt
  • Índice com script: Agendado - auto-indexlist.txt
  • Índice com script: Controle remoto - CGI-indexlist.txt
  • Regenerar - manual-upgrade
$main::search_clear_cache O valor indica se a opção de indexação "Clear index cache" foi solicitada para a operação de índice atual. Se "Limpar cache de índice" foi solicitado, o valor de $main::search_clear_cache é " 1". Forma obsoleta: $main::ws_clear_cache
$main::search_fields O valor contém uma lista separada por tabulações dos campos de metadados definidos na conta. Por padrão, o valor é: url title desc keys target body alt date charset language Formulário obsoleto: $main::ws_fields
$main::search_collections O valor contém uma lista separada por tabulações das Coleções definidas na conta. Forma obsoleta: $main::ws_collections
$main::search_url O valor é o URL totalmente qualificado do documento. Forma obsoleta: $main::ws_url
$main::search_content_type O valor é o tipo de conteúdo do documento, conforme buscado na meta tag http-equiv. Um valor típico é "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class O valor é a classe de conteúdo do documento, conforme derivado do campo content-type . Forma obsoleta: $main::ws_content_class
$main::search_syntax_check O valor reflete o uso do botão "Verificar sintaxe". Se clicado, o valor é 1 (um); caso contrário, seu valor será 0 (zero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date Se fornecido pelo servidor da Web, esse valor contém a representação de época (segundos desde 1° de janeiro de 1970) da data da última modificação do documento. Você pode formatar esse valor usando a chamada da biblioteca Perl localtime() .

Dicas rápidas

  • Todas as variáveis globais são precedidas pelo namespace "main:":: $main::doc_count = 0;

  • Todas as variáveis locais são declaradas com "my": my $i = 0;

  • As sub-rotinas são definidas no script de inicialização. Eles não precisam de um namespace "main::" explícito: sub my_sub { ...

    }

  • Teste o $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudá-lo a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • O $main::search_content_type é o cabeçalho Content-Type completo fornecido pelo servidor. Às vezes, ele pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento não HTML, $main::search_content_type pode tomar vários valores. Testar cada valor no script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "aplicativo/senha", "application/vnd.ms-word" ou "aplicativo/x-msword". Nesses casos, $main::search_content_class pode ter os seguintes valores:

    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • text
  • No exemplo, testar $main::search_content_class para "palavra" corresponderia a qualquer um dos três valores de tipo de conteúdo possíveis.

  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisar alterar nada em um documento, não precisará copiar STDIN para STDOUT para esse documento.

  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de filtragem

O script de filtragem é um script Perl que é executado para cada documento baixado do site.

Você usa o script de filtragem juntamente com um script de inicialização, script de terminação e script de máscaras de URL.

Certifique-se de recriar o índice do site para que os resultados do script de filtragem estejam visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar um script de filtragem

  1. No menu do produto, clique em Settings > Filtering > Filtering Script.

  2. (Opcional) Na página Filtering Script, no campo Test URL, insira o URL de um documento em seu site.

    Clique em uma opção de teste para ver as alterações no texto HTML bruto.

    Opção

    Descrição

    Campo URL de teste

    Permite que você insira o URL de um documento em seu site.

    Teste

    Testa o URL em relação aos scripts de filtragem e máscaras de URL.

    O documento de URL de teste é baixado, que é usado como a entrada STDIN para o script de filtragem. Os scripts de inicialização, filtragem e terminação são executados. Se houver alguma saída STDOUT do script de filtragem, essa saída será exibida em uma nova janela do navegador.

    Testar somente

    Testa somente a operação do script.

    Visualizar

    Permite que você visualize a página.

    Vídeo completo

    Gera uma visualização completa da tabela antes e depois dos documentos.

    Visual Curto

    Mostra apenas as diferenças entre as exibições antes e depois.

    Especialista (diff)

    Exibe a saída bruta do comando GNU diff usado para comparar os arquivos, usando as opções de linha de comando fornecidas.

    Script de filtragem

    Permite colar o script de filtragem no campo fornecido.

    Salvar alterações

    Salva o script de filtragem.

    Verificar sintaxe

    Permite que você faça uma verificação rápida da sintaxe do script executando os scripts de inicialização, filtragem e término. Ele não atualiza e salva o script.

    Todos os erros e avisos do compilador Perl e todas as saídas STDERR são impressos.

    Antes que os efeitos do script fiquem visíveis para os clientes, você deve reconstruir o índice do site.

    Opções de linha de comando do diferencial de GNU

    Algumas opções de diferencial de GNU que podem ser usadas no modo Expert (diff) na página Script de filtragem preparada incluem:

    Opção de linha de comando diff GNU

    Descrição

    -b

    Ignora alterações na quantidade de espaço em branco.

    -B

    Ignora alterações que inserem ou excluem linhas em branco.

    -c

    Usa o formato de saída do contexto, mostrando três linhas de contexto.

    Linhas -C

    Usa o formato de saída do contexto, mostrando linhas (um número inteiro) de contexto ou três linhas se não forem fornecidas.

    -i

    Ignora alterações em caso de; considere letras maiúsculas e minúsculas equivalentes.

    -f

    Torna a saída semelhante a um script de ed, mas com alterações na ordem em que aparecem no arquivo.

    -n

    Gera diffs no formato RCS; como -f exceto que cada comando especifica o número de linhas afetadas.

    -u

    Usa o formato de saída unificado, mostrando três linhas de contexto.

    Linhas -U

    Usa o formato de saída unificado, mostrando linhas (um inteiro) de contexto ou três se linhas não forem fornecidas.

  3. Clique em Test para testar os scripts de filtragem e as máscaras de URL.

    Clicar em Test não atualiza e salva o script de filtragem.

  4. No campo Filtering Script, cole o script.

  5. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de filtragem, inicialização e término.

    Check Syntax não atualiza e salva o script.

  6. Clique em Save Changes.

  7. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.

    Consulte Configuração de um índice incremental de um site de preparo.

  8. (Opcional) Na página Filtering Script , siga um destes procedimentos:

Sobre o script de inicialização

Você pode usar Initialization Script para alterar o conteúdo de um documento da Web antes que ele seja indexado.

Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em URL de um documento, tipo MIME e conteúdo existente. O script de inicialização é um script Perl, que fornece manuseio poderoso de strings e flexibilidade de correspondência regular de expressões. Use o script de inicialização com um script de filtragem, script de terminação, script de máscara de URL e URL de teste.

O script de inicialização é executado uma vez antes do início da indexação. Use esse script para inicializar qualquer variável e sub-rotinas globais usadas pelo seu script de filtragem. Você pode usar o script de inicialização para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens para STDERR ou por meio da sub-rotina _search_debug_log().

Algumas opções de diferencial de GNU que podem ser usadas no modo Expert (diff) na página Script de Inicialização Preparada incluem:

Opção de diferencial GNU

Descrição

-b

Ignora alterações na quantidade de espaço em branco.

-B

Ignora alterações que inserem ou excluem linhas em branco.

-c

Usa o formato de saída do contexto, mostrando três linhas de contexto.

Linhas -C

Usa o formato de saída do contexto, mostrando linhas (um número inteiro) de contexto ou três linhas se não forem fornecidas.

-i

Ignora alterações em caso de; considere letras maiúsculas e minúsculas equivalentes.

-f

Torna a saída semelhante a um script de ed, mas com alterações na ordem em que aparecem no arquivo.

-n

Gera diffs no formato RCS; como -f exceto que cada comando especifica o número de linhas afetadas.

-u

Usa o formato de saída unificado, mostrando três linhas de contexto.

Linhas -U

Usa o formato de saída unificado, mostrando linhas (um inteiro) de contexto ou três se linhas não forem fornecidas.

Você pode usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais são precedidas pelo namespace "main::". Quando o script de inicialização é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:

  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - nada (se os dados forem impressos em STDOUT, serão descartados)
  • STDERR - os dados impressos em STDERR são impressos no Log de Índice como um erro

Além disso, você pode gravar mensagens personalizadas no log de índice usando a sub-rotina _search_debug_log(), como no exemplo a seguir:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.

Um exemplo de script de inicialização é o seguinte:

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Consulte Variáveis Globais

Dicas rápidas

  • Todas as variáveis globais são precedidas pelo namespace "main:":: $main::doc_count = 0;

  • Todas as variáveis locais são declaradas com "my": my $i = 0;

  • As sub-rotinas são definidas no script de inicialização. Eles não precisam de um namespace "main::" explícito: sub my_sub { ...

    }

  • Teste o $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudá-lo a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • O $main::search_content_type é o cabeçalho Content-Type completo fornecido pelo servidor. Às vezes, ele pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento não HTML, $main::search_content_type pode tomar vários valores. Testar cada valor no script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "aplicativo/senha", "application/vnd.ms-word" ou "aplicativo/x-msword". Nesses casos, $main::search_content_class pode ter os seguintes valores:

    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • texto
  • No exemplo, testar $main::search_content_class para "palavra" corresponderia a qualquer um dos três valores de tipo de conteúdo possíveis.

  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisar alterar nada em um documento, não precisará copiar STDIN para STDOUT para esse documento.

  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de inicialização

O script de inicialização é um script Perl que é executado uma vez antes que qualquer documento seja indexado.

Você usa o script de inicialização juntamente com um script de filtragem, script de terminação e script de máscaras de URL.

Certifique-se de recriar o índice do site para que os resultados do script de inicialização fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar um script de inicialização

  1. No menu do produto, clique em Settings > Filtering > Initialization Script.

  2. (Opcional) Na página Initialization Script, no campo Test URL, insira o URL de um documento em seu site.

    Clique em uma opção de teste para ver as alterações no texto HTML bruto.

    Consulte a tabela de opções de filtragem em Adição de um script de filtragem.

    Clique em Test para testar os scripts de filtragem e as máscaras de URL.

    Clicar em Test não atualiza e salva o script de inicialização.

  3. No campo Initialization Script, cole o script.

  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de filtragem, inicialização e término.

    Check Syntax não atualiza e salva o script.

  5. Clique em Save Changes.

  6. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.

    Consulte Configuração de um índice incremental de um site de preparo.

  7. (Opcional) Na página Initialization Script , siga um destes procedimentos:

Sobre o script de terminação

Você pode usar Termination Script para alterar o conteúdo de um documento da Web antes que ele seja indexado.

Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em URL de um documento, tipo MIME e conteúdo existente. O script de inicialização é um script Perl, que fornece manuseio poderoso de strings e flexibilidade de correspondência regular de expressões. Use o script de terminação com um script de inicialização, script de filtragem, script de terminação, script de máscaras de URL e URL de teste.

O script de finalização é executado uma vez depois que todos os documentos são indexados. Você pode usar o script de terminação para imprimir mensagens de status do script de filtragem para o log de índice. Você pode imprimir as mensagens para STDERR ou por meio da sub-rotina _search_debug_log().

Algumas opções de linha de comando de diferencial de GNU que podem ser usadas no modo Expert (diff) na página Script de Terminação Preparada incluem o seguinte:

Opção de linha de comando diff GNU

Descrição

-b

Ignora alterações na quantidade de espaço em branco.

-B

Ignora alterações que inserem ou excluem linhas em branco.

-c

Usa o formato de saída do contexto, mostrando três linhas de contexto.

Linhas -C

Usa o formato de saída do contexto, mostrando linhas (um número inteiro) de contexto ou três linhas se não forem fornecidas.

-i

Ignora alterações em caso de; considere letras maiúsculas e minúsculas equivalentes.

-f

Torna a saída semelhante a um script de ed, mas com alterações na ordem em que aparecem no arquivo.

-n

Gera diffs no formato RCS; como -f exceto que cada comando especifica o número de linhas afetadas.

-u

Usa o formato de saída unificado, mostrando três linhas de contexto.

Linhas -U

Usa o formato de saída unificado, mostrando linhas (um inteiro) de contexto ou três se linhas não forem fornecidas.

Você pode usar variáveis locais, variáveis globais ou ambos nesses scripts. Todas as variáveis globais são precedidas pelo namespace "main::". Quando o script de terminação é iniciado, seu ambiente contém os seguintes identificadores de arquivo padrão:

  • STDIN - nada (retorna imediatamente EOF quando lido)
  • STDOUT - nada (se os dados forem impressos em STDOUT, serão descartados)
  • STDERR - os dados impressos em STDERR são impressos no log de índice como um erro

Além disso, você pode gravar mensagens personalizadas no log de índice usando a sub-rotina _search_debug_log(), como no exemplo a seguir:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Essas mensagens são exibidas com a palavra DEBUG como um prefácio e não são registradas como erros.

Para exibir o número de documentos que foram processados pelo script de filtragem como uma linha de erro no log de índice, você pode usar o seguinte script de terminação:

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Consulte Variáveis Globais

Dicas rápidas

  • Todas as variáveis globais são precedidas pelo namespace "main:":: $main::doc_count = 0;

  • Todas as variáveis locais são declaradas com "my": my $i = 0;

  • As sub-rotinas são definidas no script de inicialização. Eles não precisam de um namespace "main::" explícito: sub my_sub { ...

    }

  • Teste o $main::search_content_type antes de fazer alterações em um arquivo. O teste pode ajudá-lo a evitar alterações descuidadas em arquivos binários, como arquivos SWF ou PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • O $main::search_content_type é o cabeçalho Content-Type completo fornecido pelo servidor. Às vezes, ele pode conter um tipo MIME simples, como "text/html". Ou pode conter um tipo MIME seguido de outras informações, como a codificação do conjunto de caracteres do documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento não HTML, $main::search_content_type pode tomar vários valores. Testar cada valor no script torna-se complicado. Por exemplo, alguns documentos do Word têm valores de tipo de conteúdo de "aplicativo/senha", "application/vnd.ms-word" ou "aplicativo/x-msword". Nesses casos, $main::search_content_class pode ter os seguintes valores:

    • html
    • pdf
    • palavra
    • excel
    • powerpoint
    • mp3
    • texto
  • No exemplo, testar $main::search_content_class para "palavra" corresponderia a qualquer um dos três valores de tipo de conteúdo possíveis.

  • Se nada for impresso para STDOUT a partir do script de filtragem, o documento será usado exatamente como foi baixado. Ou seja, se você não precisar alterar nada em um documento, não precisará copiar STDIN para STDOUT para esse documento.

  • Se quiser remover todo o texto de um documento, imprima um arquivo válido STDOUT. Por exemplo, para remover completamente todo o texto de um documento HTML, faça o seguinte: print "<html></html>";

Adicionar um script de terminação

O script de terminação é um script Perl que é executado uma vez depois que todos os documentos são indexados.

Você usa o script de terminação juntamente com um script de filtragem, script de terminação e script de máscaras de URL.

Certifique-se de recriar o índice do site para que os resultados do script de inicialização fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar um script de terminação

  1. No menu do produto, clique em Settings > Filtering > Termination Script.

  2. (Opcional) Na página Termination Script, no campo Test URL, insira o URL de um documento em seu site.

    Clique em uma opção de teste para ver as alterações no texto HTML bruto.

    Consulte a tabela de opções de filtragem em Adição de um script de filtragem.

    Clique em Test para testar os scripts de filtragem e as máscaras de URL.

    Clicar em Test não atualiza e salva seu script de terminação.

  3. No campo Termination Script, cole o script.

  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe do script, executando os scripts de inicialização, filtragem e término.

    Check Syntax não atualiza e salva o script.

  5. Clique em Save Changes.

  6. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.

    Consulte Configuração de um índice incremental de um site de preparo.

  7. (Opcional) Na página Termination Script , siga um destes procedimentos:

Sobre o script de máscaras de URL

Com a filtragem, você pode alterar o conteúdo de um documento da Web antes de ele ser indexado. Você pode inserir tags HTML, remover conteúdo irrelevante e até criar novos metadados HTML com base em URL de um documento, tipo MIME e conteúdo existente. O script de máscaras de URL é um script Perl que fornece manuseio poderoso de strings e flexibilidade de correspondência regular de expressões.

Para alterar o conteúdo dos documentos que existem apenas em uma porção específica do site, você pode especificar incluir máscaras de URL, excluir máscaras de URL, ou ambas, para definir as páginas apropriadas.

Se quiser alterar apenas os documentos em "https://www.mysite.com/faqs/", poderá usar o seguinte conjunto de máscaras:

include https://www.mysite.com/faqs/ 
exclude *

Também é possível usar a expressão regular em um script de máscara de URL, como no exemplo a seguir:

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Consulte Expressões regulares.

As máscaras de URL com script são consideradas na ordem em que foram inseridas no campo URL Masks. Quando um URL de documento corresponde a uma máscara, esse documento é incluído ou excluído com base no tipo de máscara. Se o URL de um documento não corresponder a nenhuma máscara de URL, o documento será incluído somente se seu tipo MIME for "text/html". Todos os outros tipos MIME são excluídos.

Adicionar um script de máscara de URL

Especifique as máscaras de inclusão e de exclusão de URL para alterar o conteúdo dos documentos que existem apenas em uma porção específica do site.

Antes que os efeitos das configurações de Máscaras de URL fiquem visíveis para os visitantes, recrie o índice do site.

Para adicionar um script de máscara de URL

  1. No menu do produto, clique em Settings > Filtering > URL Masks.

  2. (Opcional) Na página URL Masks , no campo Test URL , insira um URL de um documento em seu site e clique em Test para testar o URL em relação aos scripts e máscaras de filtragem.

    O documento de URL de teste é baixado, que é usado como a entrada STDIN para o script de filtragem. Em seguida, os scripts de filtragem, inicialização e terminação são executados. Se houver alguma saída STDOUT do script de filtragem que a saída é exibida em uma nova janela do navegador.

    Clicar em Test não atualiza e salva o script.

  3. No campo URL Masks, insira uma máscara de URL por linha.

  4. (Opcional) Clique em Check Syntax para executar uma verificação rápida da sintaxe de suas máscaras de URL executando os scripts de filtragem, inicialização e término.

    Check Syntax não atualiza e salva o script.

  5. Clique em Save Changes.

  6. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.

    Consulte Configuração de um índice incremental de um site de preparo.

  7. (Opcional) Na página URL Masks , siga um destes procedimentos:

Sobre os tipos de conteúdo na filtragem

Permite selecionar quais tipos de conteúdo você deseja filtrar para esta conta.

O texto encontrado nos tipos de conteúdo selecionados é convertido em HTML e, em seguida, processado usando o script especificado em Filtering Script.

Consulte Sobre o script de filtragem.

Os Tipos de conteúdo que você pode selecionar incluem:

  • documentos PDF
  • Documentos em texto
  • Filmes sobre Flash Adobe
  • Arquivos do Microsoft Word
  • Arquivos do Microsoft Office (OpenXML)
  • Arquivos do Microsoft Excel
  • Arquivos do Microsoft Powerpoint
  • Texto em arquivos de música MP3

Antes que os efeitos das configurações de Tipos de conteúdo ou alterações nas configurações sejam visíveis para os clientes, você deve recriar o índice do site.

Selecionar os tipos de conteúdo que são filtrados

Selecione os tipos de conteúdo que você deseja passar para o script especificado em Filtering Script.

Consulte Sobre o script de filtragem.

Para selecionar os tipos de conteúdo filtrados

  1. No menu do produto, clique em Settings > Filtering > Content Types.

  2. Na página Content Types, verifique os tipos de conteúdo que deseja passar para o script de filtro.

  3. Clique em Save Changes.

  4. (Opcional) Reconstrua o índice do site preparado se desejar visualizar os resultados.

    Consulte Configuração de um índice incremental de um site de preparo.

  5. (Opcional) Na página Content Types , siga um destes procedimentos:

Nesta página

Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now