Sobre o índice de scripts

Com o índice de scripts, você pode gravar, atualizar e manter opções de indexação incrementais sem precisar fazer logon. O robô de pesquisa lê as instruções de um arquivo de texto hospedado em seu servidor.

Usando o índice de scripts

Sobre a configuração da indexação incremental com script

Para usar o Índice com script, use a página Configuração de índice incremental com script para especificar o URL para um arquivo de script (um arquivo de texto simples) localizado no servidor. Por exemplo, https://www.mysite.com/indexlist.txt. Conforme o site muda, você pode adicionar blocos de comando ao arquivo de texto manualmente ou automaticamente (com um script acionado pela chegada de informações de um feed de notícias, marcador de ações ou outro arquivo alterado).

Quando o índice incremental com script começa, o robô de pesquisa lê o arquivo de texto e executa os novos comandos encontrados nesse arquivo. Por padrão, o robô de pesquisa processa apenas os novos comandos, que são determinados pela data do arquivo. A menos que você marque Clear Date no momento em que configurar o Índice de script, o robô de pesquisa "se lembra" do especificador de datas do bloco processado mais recentemente.

Sobre o arquivo de script

O arquivo de script especificado no URL é um arquivo de texto simples localizado no servidor. Você pode usar retornos de carro, feeds de linha ou ambos para a sequência de fim de linha. Uma linha em branco contém zero ou mais caracteres de espaço em branco seguidos por uma sequência de fim de linha. Todos os comandos não diferenciam maiúsculas de minúsculas.

O arquivo de texto é organizado em blocos que descrevem as informações que o robô de pesquisa usa quando executa um índice incremental com script.

Os blocos são ordenados por data, com os blocos mais antigos na parte superior do arquivo de texto e os blocos mais recentes na parte inferior. Cada bloco começa com uma única linha date-command e um comando date-specifier, e termina com um separador de linha em branco como no seguinte exemplo de bloco (entre vários comandos):

Um zero à esquerda é necessário para todas as datas ordinais inferiores ao 10º ao usar o estilo HTTP 1.1. Por exemplo, 6 de novembro é 6 de nov, não 6 de nov.

Comando

Descrição

date-command

A primeira linha de cada start de bloco com um de dois comandos de data:

  • date

    Use o comando "date" para indicar que o especificador de data consistirá em um dia, data, hora e fuso horário.

  • segundos

    Use segundos para indicar que o especificador de data consistirá em um tempo em cada segundo (por exemplo, 784111777). Ao usar segundos , verifique se o número de segundos aumenta entre blocos.

especificador de data

O comando date-specifier normalmente registra a data e a hora ordinais (comando date) ou o tempo em cada segundo de época (comando second) em que as informações de bloco foram adicionadas ao arquivo. Por exemplo:

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

Um zero à esquerda é necessário para todas as datas ordinais inferiores ao 10º ao usar o estilo HTTP 1.1. Por exemplo, 6 de novembro é 6 de nov, não 6 de nov.

O robô de pesquisa "lembra" o especificador de datas do bloco processado mais recentemente e indexa apenas as informações que considera "mais recentes". (Tempo real não importa para o robô de busca. Em vez disso, o tempo em relação a outros tempos processados anteriormente é o que importa.)

Depois que o robô de pesquisa lê um bloco com um especificador de data de 10:00 p.m, por exemplo, ele não lê nenhum bloco que registra horas antes das 22:00, independentemente de quando a operação de índice é executada. Na pior das hipóteses, você pode inserir erroneamente o ano "2040" em vez de "2004" no seu especificador de datas. Nesse caso, o robô de pesquisa indexa o bloco 2040 durante a próxima operação de indexação e, em seguida, recusa ler outros blocos de informação (a menos que um post-date 2040). Se isso acontecer, remova todos os blocos processados anteriormente do arquivo de texto, clique em Limpar data e empurre-o ao vivo.

linha de comentários

Comece as linhas de comentário com o caractere "#".

Cada linha de comentário deve ser uma linha própria; não é possível digitar comentários de fim de linha.

Uma linha de comentário não é considerada uma linha em branco. Também pode aparecer em qualquer lugar de um bloco, mesmo antes de um comando date ou second, como no exemplo a seguir:

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-command

Cada bloco de texto pode conter quantos comandos de ação desejar. As seguintes opções de action-command correspondem às da indexação incremental padrão:

  • add

    Usar com URL. O robô de pesquisa indexa somente os URLs especificados que foram alterados desde a última operação de indexação. Além disso, o robô de pesquisa segue links contidos em documentos e indexa somente os documentos que foram alterados.

    Você pode seguir o URL com nofollow ou noindex palavras-chave como no seguinte exemplo:

    add https://www.mydomain.com/ noindex

  • update

    Usar com máscara de URL. O robô de pesquisa encontra e atualiza todos os documentos que correspondem à máscara de URL especificada.

    Você pode seguir o URL com nofollow ou noindex palavras-chave como no seguinte exemplo:

    update https://www.mydomain.com/products/

  • include ou exclude

    Usar com máscara de URL. O robô de pesquisa encontra e indexa ("incluir") ou ignora ("excluir") documentos com base no tipo de máscara especificado.

    Por exemplo,

    include https://www.mydomain.com/products/household/lightbulbs*.html

    ou

    exclude https://www.mydomain.com/archive/

  • include-date ou exclude-date

    Usar com máscara de URL. O robô de pesquisa encontra e indexa ("incluir") ou ignora ("excluir") documentos com base no URL e na data dos documentos. Os seguintes tipos de máscaras estão disponíveis:

    • include-days NNN

      O robô de pesquisa indexa todos os documentos que correspondem à máscara de URL especificada e são NNN dias ou mais antigos.

      Você pode seguir a máscara de URL com as palavras-chave nofollow , noindex , e/ou server-date .

    • include-date YYYY-MM-DD

      O robô de pesquisa indexa todos os documentos que correspondem à máscara de URL especificada e são tão antigos ou mais antigos que a data AAAA-MM-DD, onde "AAAA" é o ano de 4 dígitos, "MM" é o mês de um ou dois dígitos (1-12) e "DD" é o dia de um ou dois dígitos (1-31).

      Você pode seguir a máscara de URL com as palavras-chave nofollow , noindex , e/ou server-date .

    • exclude-days NNN

      Desabilita a indexação de todos os documentos que correspondem à máscara de URL especificada e são NNN dias ou mais antigos.

      Você pode seguir a máscara de URL com a palavra-chave server-date .

    • exclude-date YYYY-MM-DD

      Desabilita a indexação de todos os documentos que correspondem à máscara de URL especificada e são tão antigos ou mais antigos que a data AAAA-MM-DD.

      Você pode seguir a máscara de URL com a palavra-chave server-date .

  • delete

    Especifique URLs. O robô de pesquisa remove documentos do índice identificados pelo URL.

  • deletemask

    O robô de pesquisa remove documentos do índice que correspondem à máscara de URL especificada.

Consulte também Sobre máscaras de URL.

Exemplo de arquivo de script

No exemplo de arquivo de script a seguir, o robô de pesquisa processa os blocos, desde que os especificadores de data posteriores à data do especificador de data do bloco processado mais recentemente. Se esse for o caso, as seguintes operações de indexação ocorrem:

  • Exclui y2k-problems.html do índice.

  • Adiciona no-y2k-problems.html ao índice de pesquisa e não segue nenhum dos links para no-y2k-problems.html.

  • Durante o rastreamento, exclua URLs que correspondem housewares.htm e lightfixtures.html do índice de pesquisa.

  • Inclua todos os outros diretórios e documentos em www.mydomain.com.

  • Atualize todos os documentos nos diretórios products e information, pesquisando e indexando todos os links subsidiários que foram alterados desde a última operação de indexação.

  • Durante o rastreamento, exclua URLs na seção archive do site se eles tiverem data de 1 de janeiro de 1999 ou antes dela.

  • Exclua URLs que correspondem housewares.html e lightfixtures.html do índice de pesquisa.

  • Indexar arquivos no diretório help, mas não rastrear nem indexar links desses arquivos.

  • Rastreie e indexe quaisquer outros arquivos encontrados para www.mydomain.com.

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configurar um índice incremental com script

Você pode especificar um script criado que grava, atualiza e mantém um índice incremental, sem a necessidade de fazer logon. O robô de pesquisa lê instruções do arquivo de texto hospedado no servidor para executar o índice incremental.

Para configurar um índice incremental com script

  1. No menu do produto, clique em Index > Scripted Index > Configuration.

  2. Na página Scripted Incremental Index Configuration, em Script File URL, insira o URL para o script de arquivo de texto localizado no servidor.

    Consulte Sobre o índice de scripts.

  3. (Opcional) Marque Clear Date se não quiser que o robô de pesquisa "lembre-se" do especificador de datas do bloco processado mais recentemente.

    Por padrão, o robô de pesquisa processa apenas novos blocos de comandos que são encontrados no arquivo de texto, que é determinado pela data do arquivo. Se não quiser o padrão, marque Clear Date.

  4. Clique em Save Changes.

  5. (Opcional) Execute um dos procedimentos a seguir:

Definir a programação de índice incremental com script para um site ativo

Você pode programar a indexação incremental por script para que ocorra em intervalos regulares durante o dia.

A hora básica selecionada é local de acordo com o fuso horário configurado nas Configurações da conta.

Consulte Definição das definições da sua conta.

Os servidores da Web normalmente ficam inativos para manutenção no meio da noite. Se o servidor estiver inativo durante um tempo de índice programado, o processo de indexação falhará. Certifique-se de selecionar uma hora do dia em que o servidor Web está disponível.

A programação de índice se aplica somente ao seu índice ativo; não é possível programar índices incrementais preparados.

Para definir a programação de índice incremental com script para um site ativo

  1. No menu do produto, clique em Index > Scripted Index > Live Schedule.
  2. Na página Scripted Incremental Index Schedule, na lista suspensa Read the Scripted Incrementally Indexing File, selecione a frequência na qual deseja que o arquivo de texto de índice incremental com script seja executado, em horas ou minutos.
  3. Na lista suspensa Base Time, selecione a hora de início na qual deseja gerar novamente um novo índice incremental com script.
  4. Clique em Save Changes.

Execução de um índice incremental com script de um site ativo ou preparado

Você pode usar o Índice Incremental com Script para indexar "partes" do site ao vivo ou preparado, como uma coleção de páginas alteradas frequentemente, tudo isso sem a necessidade de fazer logon.

Para usar esse recurso, certifique-se de configurar um arquivo de texto de índice incremental com script.

Consulte Configurar um índice incremental com script.

Para executar um índice incremental com script de um site ao vivo ou preparado

  1. No menu do produto, execute um dos procedimentos a seguir:

    • Clique em Index > Scripted Index > Live Index.
    • Clique em Index > Scripted Index > Staged Index.
  2. Clique em Scripted Index Now.

  3. (Opcional) Se erros de indexação ocorreram, clique em View Errors para visualização o log associado.

Exibindo o log de índice incremental com script de um site ativo ou preparado

Quando um índice de script completo em tempo real ou um índice de script completo preparado for concluído, você poderá visualização seu log associado para solucionar quaisquer erros ocorridos.

Não é possível exportar registros nem salvá-los. No entanto, o log permanece disponível para exibição até que o novo índice ocorra.

Para visualização do log de índice incremental de um site ao vivo ou preparado

  1. No menu do produto, execute um dos procedimentos a seguir:

    • Clique em Index > Scripted Index > Live Log.

    • Clique em Index > Scripted Index > Staged Log.

  2. Na página de log, na parte superior ou inferior, execute um dos procedimentos a seguir:

    • Use as opções de navegação First, Prev, Next, Last ou Go to line para percorrer o registro.

    • Use as opções de exibição Errors only, Wrap line ou Show para refinar o que você vê.

Nesta página