Sobre o menu Rastreamento

Use o menu Rastreamento para definir a data e as máscaras de URL, senhas, tipos de conteúdo, conexões, definições de formulário e pontos de entrada do URL.

Sobre pontos de entrada de URL

A maioria dos sites tem um ponto de entrada principal ou uma página inicial visitada inicialmente por um cliente. Esse ponto de entrada principal é o endereço de URL a partir do qual o robô de pesquisa inicia o rastreamento de índice. No entanto, se o site tiver vários domínios ou subdomínios, ou se partes do site não forem vinculadas a partir do ponto de entrada principal, você poderá usar Pontos de entrada de URL para adicionar mais pontos de entrada.

Todas as páginas do site abaixo de cada ponto de entrada de URL especificado são indexadas. Você pode combinar pontos de entrada de URL com máscaras para controlar exatamente quais partes de um site você deseja indexar. Você deve recriar o índice do site antes que os efeitos das configurações de Pontos de entrada de URL fiquem visíveis para os clientes.

O ponto de entrada principal normalmente é o URL do site que você deseja indexar e pesquisar. Você configura esse ponto de entrada principal em Configurações da conta.

Consulte Definição das configurações da sua conta.

Depois de especificar o ponto de entrada do URL principal, você pode especificar pontos de entrada adicionais que deseja rastrear em ordem. Na maioria das vezes, você especificará pontos de entrada adicionais para páginas da Web que não estão vinculadas a partir de páginas no ponto de entrada principal. Especifique pontos de entrada adicionais quando seu site abranger mais de um domínio, como no exemplo a seguir:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

Você qualifica cada ponto de entrada com uma ou mais das seguintes palavras-chave separadas por espaço na tabela abaixo. Essas palavras-chave afetam como a página é indexada.

Importante: Certifique-se de separar uma determinada palavra-chave do ponto de entrada e uma da outra por um espaço; uma vírgula não é um separador válido.

Palavra-chave

Descrição

noindex

Se você não quiser indexar o texto na página de ponto de entrada, mas quiser seguir os links da página, adicione noindex após o ponto de entrada.

Separe a palavra-chave do ponto de entrada com um espaço, como no exemplo a seguir:

https://www.my-additional-domain.com/more_pages/main.html noindex

Esta palavra-chave é equivalente a uma meta tag de robôs com content="noindex" ) entre o <head> ... Tags </head> da página do ponto de entrada.

nofollow

Se você quiser indexar o texto na página de ponto de entrada, mas não quiser seguir os links da página, adicione nofollow após o ponto de entrada.

Separe a palavra-chave do ponto de entrada com um espaço, como no exemplo a seguir:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Esta palavra-chave é equivalente a uma meta tag de robôs com content="nofollow" entre as <head> ... </head> de uma página de ponto de entrada.

formulário

Quando o ponto de entrada é uma página de logon, form normalmente é usado para que o robô de pesquisa possa enviar o formulário de logon e receber os cookies apropriados antes de rastrear o site. Quando a palavra-chave "formulário" é usada, a página de ponto de entrada não é indexada e o robô de pesquisa não marca a página de ponto de entrada como rastreada. Use nofollow se você não quiser que o robô de pesquisa siga os links da página.

Consulte também Sobre tipos de conteúdo.

Consulte também Sobre o Conector de índice.

Adicionar vários pontos de entrada de URL que você deseja indexar

Se o site tiver vários domínios ou subdomínios e você quiser que eles sejam rastreados, você poderá usar os Pontos de entrada de URL para adicionar mais URLs.

Para definir o ponto de entrada do URL principal do seu site, use Configurações da conta.

Consulte Definição das configurações da sua conta.

Para adicionar vários pontos de entrada de URL que você deseja indexar

  1. No menu do produto, clique em Settings > Crawling > URL Entrypoints.

  2. Na página URL Entrypoints, no campo Entrypoints, insira um endereço de URL por linha.

  3. (Opcional) Na lista suspensa Add Index Connector Configurations , selecione um conector de índice que deseja adicionar como um ponto de entrada para indexação.

    A lista suspensa só estará disponível se você tiver adicionado anteriormente uma ou mais definições de conector de índice.

    Consulte Adicionar uma definição de Conector de índice.

  4. Clique em Save Changes.

  5. (Opcional) Siga um destes procedimentos:

Sobre as máscaras de URL

As máscaras de URL são padrões que determinam qual dos seus sites documentos o robô de pesquisa indexa ou não índices.

Certifique-se de recriar o índice do site para que os resultados das máscaras de URL fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

A seguir estão dois tipos de máscaras de URL que você pode usar:

  • Incluir máscaras de URL
  • Excluir máscaras de URL

Incluir máscaras de URL informa ao robô de pesquisa para indexar quaisquer documentos que correspondam ao padrão da máscara.

Excluir máscaras de URL informa o robô de pesquisa a indexar documentos correspondentes.

Conforme o robô de pesquisa viaja de link para link em seu site, ele encontra URLs e procura por máscaras que correspondam a esses URLs. A primeira correspondência determina se inclui ou exclui esse URL do índice. Se nenhuma máscara corresponder a um URL encontrado, esse URL será descartado do índice.

Incluir máscaras de URL para os URLs de ponto de entrada são geradas automaticamente. Esse comportamento garante que todos os documentos encontrados em seu site sejam indexados. Também elimina os links que "saem" do seu site. Por exemplo, se uma página indexada se vincula a https://www.yahoo.com, o robô de pesquisa não indexa esse URL porque não corresponde à máscara de inclusão gerada automaticamente pelo URL do ponto de entrada.

Cada máscara de URL especificada deve estar em uma linha separada.

A máscara pode especificar qualquer um dos seguintes:

  • Um caminho completo como em https://www.mydomain.com/products.html.

  • Um caminho parcial como em https://www.mydomain.com/products.

  • Um URL que usa curingas como em https://www.mydomain.com/*.html.

  • Uma expressão regular (para usuários avançados).

    Para tornar uma máscara uma expressão regular, insira a palavra-chave regexp entre o tipo de máscara ( exclude ou include) e a máscara de URL.

Este é um exemplo simples de máscara de exclusão de URL:

exclude https://www.mydomain.com/photos

Como este exemplo é uma máscara de URL excluída, qualquer documento que corresponda ao padrão não é indexado. O padrão corresponde a qualquer item encontrado, arquivos e pastas, de modo que https://www.mydomain.com/photos.html e https://www.mydomain.com/photos/index.html, ambos correspondentes ao URL de exclusão, não sejam indexados. Para corresponder somente arquivos na pasta /photos/ , a máscara de URL deve conter uma barra à direita, como no exemplo a seguir:

exclude https://www.mydomain.com/photos/

O exemplo de máscara de exclusão a seguir usa um curinga. Informa o robô de pesquisa a ignorar arquivos com a extensão ".pdf". O robô de pesquisa não adiciona esses arquivos ao seu índice.

exclude *.pdf

Uma simples máscara de inclusão de URL é a seguinte:

include https://www.mydomain.com/news/

Somente os documentos que são vinculados por meio de uma série de links de um ponto de entrada de URL, ou que são usados como um ponto de entrada de URL propriamente dito, são indexados. A listagem exclusiva do URL de um documento como uma máscara de URL de inclusão não indexa um documento desvinculado. Para adicionar documentos desvinculados ao seu índice, você pode usar o recurso Pontos de entrada do URL.

Consulte Sobre pontos de entrada de URL.

Incluir máscaras e excluir máscaras podem trabalhar em conjunto. É possível excluir uma grande parte do seu site da indexação criando uma máscara de URL de exclusão, mas incluir uma ou mais dessas páginas excluídas com uma máscara de URL de inclusão. Por exemplo, suponha que o URL do ponto de entrada seja o seguinte:

https://www.mydomain.com/photos/

O robô de pesquisa rastreia e indexa todas as páginas em /photos/summer/, /photos/spring/ e /photos/fall/ (supondo que haja links para pelo menos uma página em cada diretório da pasta photos). Esse comportamento ocorre porque os caminhos de link permitem que o robô de pesquisa encontre os documentos nas pastas /summer/, /spring/ e /fall/, e os URLs da pasta correspondem à máscara de inclusão gerada automaticamente pelo URL do ponto de entrada.

Você pode optar por excluir todas as páginas na pasta /fall/ com uma máscara de URL de exclusão, como no exemplo a seguir:

exclude https://www.mydomain.com/photos/fall/

Ou inclua seletivamente apenas /photos/fall/redleaves4.html como parte do índice com a seguinte máscara de URL:

include https://www.mydomain.com/photos/fall/redleaves4.html

Para que os dois exemplos de máscara acima funcionem conforme o esperado, a máscara de inclusão é listada primeiro, como no seguinte:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Como o robô de pesquisa segue as direções na ordem em que está listado, o robô de pesquisa primeiro inclui /photos/fall/redleaves4.html e, em seguida, exclui o restante dos arquivos na pasta /fall.

Se as instruções forem especificadas da forma oposta à seguinte:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Então /photos/fall/redleaves4.html não é incluído, mesmo que a máscara especifique que está incluída.

Uma máscara de URL que aparece primeiro sempre tem precedência sobre uma máscara de URL que aparece mais tarde nas configurações de máscara. Além disso, se o robô de pesquisa encontrar uma página que corresponda a uma máscara de URL de inclusão e uma máscara de URL de exclusão, a máscara listada primeiro sempre terá prioridade.

Consulte Configuração de um índice incremental de um site de preparo.

Sobre o uso de palavras-chave com máscaras de URL

Você pode qualificar cada máscara de inclusão com uma ou mais palavras-chave separadas por espaço, que afetam como as páginas correspondentes são indexadas.

Uma vírgula não é válida como separador entre a máscara e a palavra-chave; você só pode usar espaços.

Palavra-chave

Descrição

noindex

Se você não quiser indexar o texto nas páginas que correspondem à máscara de URL, mas quiser seguir os links de páginas correspondentes, adicione noindex após a máscara de inclusão de URL. Certifique-se de separar a palavra-chave da máscara com um espaço como no exemplo a seguir:

include&nbsp;*.swf&nbsp;noindex

O exemplo acima especifica que o robô de pesquisa segue todos os links dos arquivos com a variável .swf , mas desativa a indexação de todo o texto contido nesses arquivos.

O A palavra-chave noindex é equivalente a uma meta tag de robô com content="noindex" entre as <head>...</head> tags de páginas correspondentes.

nofollow

Se você quiser indexar o texto nas páginas que correspondem à máscara de URL, mas não quiser seguir os links da página correspondente, adicione nofollow após a máscara de inclusão de URL. Certifique-se de separar a palavra-chave da máscara com um espaço como no exemplo a seguir:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

O A palavra-chave nofollow é equivalente a uma meta tag de robô com content="nofollow" entre as <head>...</head> tags de páginas correspondentes.

regexp

Usado para incluir e excluir máscaras.

Qualquer máscara de URL precedida por regexp é tratado como uma expressão regular. Se o robô de pesquisa encontrar documentos que correspondem a uma máscara de URL de expressão regular excluída, esses documentos não serão indexados. Se o robô de pesquisa encontrar documentos que correspondem a uma máscara de URL de expressão regular de inclusão, esses documentos serão indexados. Por exemplo, suponha que você tenha a seguinte máscara de URL:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

O robô de pesquisa exclui arquivos correspondentes, como https://www.mydomain.com/products/page1.html

Se você tivesse a seguinte máscara de URL de expressão regular excluída:

exclude&nbsp;regexp&nbsp;^.*\?..*$

O robô de pesquisa não precisa incluir nenhum URL contendo um parâmetro CGI, como https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Se você tiver a seguinte máscara de URL de expressão regular:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

O robô de pesquisa segue todos os links de arquivos com a extensão ".swf". O noindex palavra-chave também especifica que o texto de arquivos correspondentes não é indexado.

Consulte Expressões regulares .

Adicionar máscaras de URL para indexar ou não partes do seu site

Você pode usar URL Masks para definir quais partes do site você deseja ou não deseja rastrear e indexar.

Use o campo Testar máscaras de URL para testar se um documento está ou não incluído depois do índice.

Certifique-se de recriar o índice do site para que os resultados das máscaras de URL fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar máscaras de URL para indexar ou não partes do site

  1. No menu do produto, clique em Settings > Crawling > URL Masks.

  2. (Opcional) Na página URL Masks, no campo Test URL Masks, insira uma máscara de URL de teste em seu site e clique em Test.

  3. No campo URL Masks, digite include (para adicionar um site que você deseja que seja rastreado e indexado) ou digite exclude (para impedir que um site seja rastreado e indexado), seguido pelo endereço da máscara de URL.

    Insira um endereço de máscara de URL por linha. Exemplo:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Clique em Save Changes.

  5. (Opcional) Siga um destes procedimentos:

Sobre as máscaras de data

Você pode usar as máscaras de data para incluir ou excluir arquivos de seus resultados de pesquisa com base na idade do arquivo.

Certifique-se de recriar o índice do site para que os resultados das máscaras de URL fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

A seguir estão dois tipos de máscaras de data que você pode usar:

  • Incluir máscaras de data ("incluir dias" e "incluir data")

    Inclua arquivos de índice de máscaras de data que estão datados na data especificada ou antes dela.

  • Excluir máscaras de data ("excluir dias" e "excluir data")

    Exclua os arquivos de índice de máscaras de data que estão datados da data especificada ou antes dela.

Por padrão, a data do arquivo é determinada a partir das informações da meta tag. Se nenhuma tag Meta for encontrada, a data de um arquivo será determinada pelo cabeçalho HTTP recebido do servidor quando o robô de pesquisa baixar um arquivo.

Cada máscara de data especificada deve estar em uma linha separada.

A máscara pode especificar qualquer um dos seguintes:

  • Um caminho completo como em https://www.mydomain.com/products.html
  • Um caminho parcial como em https://www.mydomain.com/products
  • Um URL que usa curingas https://www.mydomain.com/*.html
  • Uma expressão regular. Para tornar uma máscara uma expressão regular, insira a palavra-chave regexp antes do URL.

As máscaras de data de inclusão e exclusão podem especificar uma data de uma das duas maneiras a seguir. As máscaras só serão aplicadas se os arquivos correspondentes tiverem sido criados na data especificada ou antes dela:

  1. Um número de dias. Por exemplo, suponha que sua máscara de data seja a seguinte:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    O número de dias especificados é contado novamente. Se o arquivo for datado em ou antes da data de chegada, a máscara será aplicada.

  2. Uma data real usando o formato AAAA-MM-DD. Por exemplo, suponha que sua máscara de data seja a seguinte:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Se o documento correspondente for datado na data especificada ou antes dela, a máscara de data será aplicada.

Este é um exemplo simples de máscara de data de exclusão:

exclude-days 90 https://www.mydomain.com/docs/archive

Como essa é uma máscara de data de exclusão, qualquer arquivo que corresponda ao padrão não será indexado e terá 90 dias ou mais. Quando você exclui um documento, nenhum texto é indexado e nenhum link é seguido desse arquivo. O arquivo é efetivamente ignorado. Neste exemplo, tanto arquivos quanto pastas podem corresponder ao padrão de URL especificado. Observe que https://www.mydomain.com/docs/archive.html e https://www.mydomain.com/docs/archive/index.html correspondem ao padrão e não são indexados se tiverem 90 dias ou mais. Para corresponder apenas arquivos na pasta /docs/archive/, a máscara de data deve conter uma barra à direita, como no seguinte:

exclude-days 90 https://www.mydomain.com/docs/archive/

Máscaras de data também podem ser usadas com coringas. A máscara de exclusão a seguir informa ao robô de pesquisa para ignorar arquivos com a extensão ".pdf" que foram datados de ou antes de 2011-02-15. O robô de pesquisa não adiciona arquivos correspondentes ao índice.

exclude-date 2011-02-15 *.pdf

Incluir máscara de data é semelhante, apenas arquivos correspondentes são adicionados ao índice. O exemplo de máscara de data de inclusão a seguir informa ao robô de pesquisa para indexar o texto de quaisquer arquivos com zero dias de idade ou mais antigos na área /docs/archive/manual/ do site.

include-days 0 https://www.mydomain.com/docs/archive/manual/

Incluir máscaras e excluir máscaras podem trabalhar em conjunto. Por exemplo, você pode excluir uma grande parte do seu site da indexação criando uma máscara de data de exclusão, mas incluir uma ou mais das páginas excluídas com uma máscara de URL de inclusão. Se o URL do ponto de entrada for o seguinte:

https://www.mydomain.com/archive/

O robô de pesquisa rastreia e indexa todas as páginas em /archive/summer/, /archive/spring/ e /archive/fall/ (supondo que haja links para pelo menos uma página em cada pasta da pasta archive). Esse comportamento ocorre porque os caminhos de link permitem que o robô de pesquisa "encontre" os arquivos nas pastas /summer/, /spring/ e /fall/ e os URLs da pasta correspondem à máscara de inclusão gerada automaticamente pelo URL do ponto de entrada.

Consulte Sobre pontos de entrada de URL.

Consulte Definição das configurações da sua conta.

Você pode optar por excluir todas as páginas com mais de 90 dias na pasta /fall/ com uma máscara de data de exclusão, como no seguinte:

exclude-days 90 https://www.mydomain.com/archive/fall/

Você pode incluir seletivamente somente /archive/fall/index.html (independentemente da idade - qualquer arquivo com 0 dias ou mais corresponde) como parte do índice com a seguinte máscara de data:

include-days 0 https://www.mydomain.com/archive/fall/index.html

Para que os dois exemplos de máscara acima funcionem conforme o esperado, você deve listar a máscara de inclusão primeiro como no seguinte:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Como o robô de pesquisa segue as direções na ordem em que são especificadas, o robô de pesquisa primeiro inclui /archive/fall/index.html e, em seguida, exclui o restante dos arquivos na pasta /fall.

Se as instruções forem especificadas da forma oposta à seguinte:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Então /archive/fall/index.html não é incluído, mesmo que a máscara especifique que deve ser. Uma máscara de data que aparece primeiro sempre tem precedência sobre uma máscara de data que pode aparecer posteriormente nas configurações de máscara. Além disso, se o robô de pesquisa encontrar uma página que corresponda a uma máscara de data de inclusão e uma máscara de data de exclusão, a máscara listada primeiro sempre terá prioridade.

Consulte Configuração de um índice incremental de um site de preparo.

Sobre o uso de palavras-chave com máscaras de data

Você pode qualificar cada máscara de inclusão com uma ou mais palavras-chave separadas por espaço, que afetam como as páginas correspondentes são indexadas.

Uma vírgula não é válida como separador entre a máscara e a palavra-chave; você só pode usar espaços.

Palavra-chave

Descrição

noindex

Se você não quiser indexar o texto nas páginas que estão datadas na data ou antes da data especificada pela máscara de inclusão, adicione noindex depois da máscara de data de inclusão, como no seguinte:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Certifique-se de separar a palavra-chave da máscara com um espaço.

O exemplo acima especifica que o robô de pesquisa segue todos os links de arquivos com a extensão ".swf" que têm 10 dias ou mais. No entanto, desativa a indexação de todo o texto contido nesses arquivos.

Você pode querer verificar se o texto dos arquivos mais antigos não está indexado, mas ainda segue todos os links desses arquivos. Nesses casos, use uma máscara de data de inclusão com a palavra-chave "noindex" em vez de usar uma máscara de data de exclusão.

nofollow

Se você deseja indexar o texto nas páginas que são datadas na data ou antes da data especificada pela máscara de inclusão, mas não deseja seguir os links da página correspondente, adicione nofollow depois da máscara de data de inclusão, como no seguinte:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Certifique-se de separar a palavra-chave da máscara com um espaço.

O A palavra-chave nofollow é equivalente a uma meta tag de robô com content="nofollow" entre as <head>...</head> das páginas correspondentes.

data do servidor

Usado para incluir e excluir máscaras.

O robô de pesquisa geralmente baixa e analisa cada arquivo antes de verificar as máscaras de data. Esse comportamento ocorre porque alguns tipos de arquivo podem especificar uma data dentro do próprio arquivo. Por exemplo, um documento HTML pode incluir metatags que definem a data do arquivo.

Se você for excluir muitos arquivos com base em sua data e não quiser colocar uma carga desnecessária em seus servidores, poderá usar server-date após o URL na máscara de data.

Esta palavra-chave instrui o robô de pesquisa a confiar na data do arquivo retornado pelo seu servidor, em vez de analisar cada arquivo. Por exemplo, a seguinte máscara de data de exclusão ignora páginas que correspondem ao URL se os documentos forem de 90 dias ou mais, de acordo com a data retornada pelo servidor nos cabeçalhos HTTP:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Se a data retornada pelo servidor for de 90 dias ou mais, server-date especifica que os documentos excluídos não serão baixados do servidor. O resultado significa um tempo de indexação mais rápido para seus documentos e uma carga reduzida colocada em seus servidores. If server-date não for especificado, o robô de pesquisa ignorará a data retornada pelo servidor nos cabeçalhos HTTP. Em vez disso, cada arquivo é baixado e verificado para ver se a data foi especificada. Se nenhuma data for especificada no arquivo, o robô de pesquisa usará a data retornada pelo servidor.

Não deve usar server-date se os arquivos contiverem comandos que substituem a data do servidor.

regexp

Use para incluir e excluir máscaras.

Qualquer máscara de data precedida por regexp é tratado como uma expressão regular.

Se o robô de pesquisa encontrar arquivos que correspondem a uma máscara de data de expressão regular de exclusão, ele não indexará esses arquivos.

Se o robô de pesquisa encontrar arquivos que correspondem a uma máscara de data de inclusão de expressão regular, ele indexará esses documentos.

Por exemplo, suponha que você tenha a seguinte máscara de data:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

A máscara informa ao robô de pesquisa para excluir arquivos correspondentes com 180 dias ou mais. Ou seja, arquivos que contêm a palavra "arquivar" em seu URL.

Consulte Expressões regulares .

Adicionar máscaras de data para indexar ou não partes do seu site

Você pode usar as máscaras de data para incluir ou excluir arquivos dos resultados de pesquisa do cliente com base na idade dos arquivos.

Use os campos Test Date e Test URL para testar se um arquivo está ou não incluído depois do índice.

Certifique-se de recriar o índice do site para que os resultados das máscaras de URL fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar máscaras de data para indexar ou não partes do site

  1. No menu do produto, clique em Settings > Crawling > Date Masks.

  2. (Opcional) Na página Date Masks, no campo Test Date, insira uma data formatada como AAAA-MM-DD (por exemplo, 2011-07-25); no campo Test URL, insira uma máscara de URL do seu site e clique em Test.

  3. No campo Date Masks, insira um endereço de máscara de data por linha.

  4. Clique em Save Changes.

  5. (Opcional) Siga um destes procedimentos:

Sobre senhas

Para acessar partes do seu site protegidas com a Autenticação Básica HTTP, você pode adicionar uma ou mais senhas.

Antes que os efeitos das configurações de Senha fiquem visíveis para os clientes, você deve recriar o índice do site.

Consulte Configuração de um índice incremental de um site de preparo.

Na página Passwords, digite cada senha em uma única linha. A senha consiste em um URL ou realm, um nome de usuário e uma senha, como no exemplo a seguir:

https://www.mydomain.com/ myname mypassword

Em vez de usar um caminho de URL, como acima, você também pode especificar um realm.

Para determinar o domínio correto a ser usado, abra uma página da Web protegida por senha com um navegador e veja a caixa de diálogo "Inserir senha de rede".

O nome do realm, neste caso, é "My Site Realm".

Usando o nome de realm acima, sua senha pode ser semelhante ao seguinte:

My Site Realm myusername mypassword

Se seu site tiver vários realms, você poderá criar várias senhas inserindo um nome de usuário e senha para cada realm em uma linha separada, como no exemplo a seguir:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Você pode combinar senhas que contêm URLs ou realms para que sua lista de senhas tenha a seguinte aparência:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

Na lista acima, é usada a primeira senha que contém um realm ou URL que corresponde à solicitação de autenticação do servidor. Mesmo que o arquivo em https://www.mysite.com/path1/path2/index.html esteja em Realm3, por exemplo, name2 e password2 são usadas porque a senha definida com o URL é listada acima da definida com o realm.

Adicionar senhas para acessar áreas de site que exigem autenticação

Você pode usar Senhas para acessar áreas protegidas por senha de seu site para fins de rastreamento e indexação.

Antes que os efeitos da sua senha sejam adições visíveis para os clientes, certifique-se de reconstruir o índice do site

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar senhas para acessar áreas de site que exigem autenticação

  1. No menu do produto, clique em Settings > Crawling > Passwords.

  2. Na página Passwords, no campo Passwords, insira um realm ou URL, e seu nome de usuário associado e senha, separados por um espaço.

    Exemplo de senha de realm e senha de URL em linhas separadas:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Adicione apenas uma senha por linha.

  3. Clique em Save Changes.

  4. (Opcional) Siga um destes procedimentos:

Sobre os tipos de conteúdo

Você pode usar Content Types para selecionar quais tipos de arquivos deseja rastrear e indexar para esta conta.

Os tipos de conteúdo que você pode escolher rastrear e indexar incluem documentos PDF, documentos de texto, filmes de Flash do Adobe, arquivos de aplicativos do Microsoft Office como Word, Excel e Powerpoint e texto em arquivos MP3. O texto encontrado nos tipos de conteúdo selecionados é pesquisado junto com todo o outro texto do site.

Antes que os efeitos das configurações de Tipos de conteúdo sejam visíveis para os clientes, você deve recriar o índice do site.

Consulte Configuração de um índice incremental de um site de preparo.

Sobre indexação de arquivos de música MP3

Se você selecionar a opção Text in MP3 Music Files na página Content Types, um arquivo MP3 será rastreado e indexado de uma das duas maneiras. A primeira e a maneira mais comum é a partir de uma tag href de âncora em um arquivo HTML, como no seguinte:

<a href="MP3-file-URL"></a>

A segunda maneira é inserir o URL do arquivo MP3 como um ponto de entrada de URL.

Consulte Sobre pontos de entrada de URL.

Um arquivo MP3 é reconhecido por seu tipo MIME "audio/mpeg".

Esteja ciente de que os tamanhos dos arquivos de música MP3 podem ser bastante grandes, mesmo que geralmente contenham apenas uma pequena quantidade de texto. Por exemplo, os arquivos MP3 podem, opcionalmente, armazenar itens como o nome do álbum, o nome do artista, o título da música, o gênero da música, o ano de lançamento e um comentário. Essas informações são armazenadas no final do arquivo, no que é chamado de TAG. Os arquivos MP3 contendo informações TAG são indexados da seguinte maneira:

  • O título da música é tratado como o título de uma página HTML.
  • O comentário é tratado como uma descrição definida para uma página HTML.
  • O gênero é tratado como uma palavra-chave que é definida para uma página HTML.
  • O nome do artista, o nome do álbum e o ano de lançamento são tratados como o corpo de uma página HTML.

Observe que cada arquivo MP3 que é rastreado e indexado em seu site conta como uma página.

Se o seu site contém muitos arquivos MP3 grandes, você pode exceder o limite de bytes de indexação para sua conta. Se isso acontecer, você poderá desmarcar Text in MP3 Music Files na página Content Types para impedir a indexação de todos os arquivos MP3 em seu site.

Se quiser impedir apenas a indexação de determinados arquivos MP3 no seu site, você pode fazer um dos seguintes procedimentos:

  • Marque as tags de âncora vinculadas aos arquivos MP3 com as tags <nofollow> e </nofollow> . O robô de pesquisa não segue os links entre essas tags.

  • Adicione os URLs dos arquivos MP3 como máscaras de exclusão.

    Consulte Sobre máscaras de URL.

Selecionar tipos de conteúdo para rastrear e indexar

Você pode usar Content Types para selecionar quais tipos de arquivos deseja rastrear e indexar para esta conta.

Os tipos de conteúdo que você pode escolher rastrear e indexar incluem documentos PDF, documentos de texto, filmes de Flash do Adobe, arquivos de aplicativos do Microsoft Office como Word, Excel e Powerpoint e texto em arquivos MP3. O texto encontrado nos tipos de conteúdo selecionados é pesquisado junto com todo o outro texto do site.

Antes que os efeitos das configurações de Tipos de conteúdo sejam visíveis para os clientes, você deve recriar o índice do site.

Consulte Configuração de um índice incremental de um site de preparo.

Para rastrear e indexar arquivos MP3 chineses, japoneses ou coreanos, conclua as etapas abaixo. Em seguida, em Settings > Metadata > Injections, especifique o conjunto de caracteres usado para codificar os arquivos MP3.

Consulte Sobre Injeções.

Para selecionar tipos de conteúdo para rastrear e indexar

  1. No menu do produto, clique em Settings > Crawling > Content Types.

  2. Na página Content Types , verifique os tipos de arquivo que deseja rastrear e indexar no site.

  3. Clique em Save Changes.

  4. (Opcional) Siga um destes procedimentos:

Sobre conexões

Você pode usar Conexões para adicionar até dez conexões HTTP que o robô de pesquisa usa para indexar seu site.

Aumentar o número de conexões pode reduzir significativamente o tempo necessário para concluir um rastreamento e índice. No entanto, esteja ciente de que cada conexão adicional aumenta a carga no servidor.

Adicionar conexões para aumentar a velocidade de indexação

Você pode reduzir o tempo necessário para indexar seu site usando o Connections para aumentar o número de conexões HTTP simultâneas que o crawler usa. Você pode adicionar até dez conexões.

Esteja ciente de que cada conexão adicional aumenta a carga colocada no servidor.

Para adicionar conexões para aumentar a velocidade de indexação

  1. No menu do produto, clique em Settings > Crawling > Connections.

  2. Na página Parallel Indexing Connections, no campo Number of Connections, digite o número de conexões (1-10) que deseja adicionar.

  3. Clique em Save Changes.

  4. (Opcional) Siga um destes procedimentos:

Sobre o envio de formulário

Você pode usar o Envio de formulário para ajudá-lo a reconhecer e processar formulários em seu site.

Durante o rastreamento e a indexação do site, cada formulário encontrado é comparado às definições de formulário adicionadas. Se um formulário corresponder a uma definição de formulário, ele será enviado para indexação. Se um formulário corresponder a mais de uma definição, ele será enviado uma vez para cada definição correspondente.

Adicionar definições de formulário para indexar formulários no seu site

Você pode usar Form Submission para ajudar a processar formulários reconhecidos em seu site para fins de indexação.

Certifique-se de recriar o índice do site para que os resultados das alterações fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para adicionar definições de formulário para indexação de formulários ao seu site

  1. No menu do produto, clique em Settings > Crawling > Form Submission.

  2. Na página Form Submission, clique em Add New Form.

  3. Na página Add Form Definition, defina as opções Form Recognition e Form Submission.

    As cinco opções na seção Form Recognition da página Form Definition são usadas para identificar formulários nas páginas da Web que podem ser processados.

    As três opções na seção Form Submission são usadas para especificar os parâmetros e valores enviados com um formulário para o servidor da Web.

    Informe um parâmetro de reconhecimento ou submissão por linha. Cada parâmetro deve incluir um nome e um valor.

    Opção

    Descrição

    Reconhecimento de formulário

    Máscara de URL da página

    Identifique a página da Web ou páginas que contêm o formulário. Para identificar um formulário que aparece em uma única página, insira o URL dessa página, como no exemplo a seguir:

    https://www.mydomain.com/login.html

    Para identificar formulários que aparecem em várias páginas, especifique uma máscara de URL que use curingas para descrever as páginas. Para identificar formulários encontrados em qualquer página ASP em https://www.mydomain.com/register/ , por exemplo, você especificaria o seguinte:

    https://www.mydomain.com/register/*.asp&nbsp;

    Também é possível usar uma expressão regular para identificar várias páginas. Basta especificar o Palavra-chave regexp antes da máscara de URL, como no exemplo a seguir:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    Máscara de URL de ação

    Identifica o atributo de ação do Tag <form> .

    Como a máscara de URL da página, a máscara de URL de ação pode assumir a forma de um único URL, um URL com curingas ou uma expressão regular.

    A máscara de URL pode ser qualquer um dos seguintes:

    • Um caminho completo como no seguinte: https://www.mydomain.com/products.html
    • Um caminho parcial, como no seguinte: https://www.mydomain.com/products
    • Um URL que usa curingas como no seguinte: https://www.mydomain.com/*.html
    • Uma expressão regular, como no seguinte: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Se você não quiser indexar o texto nas páginas identificadas por uma máscara de URL ou por uma máscara de URL de ação, ou se não quiser que os links sejam seguidos nessas páginas, poderá usar a variável noindex e Palavras-chave nofollow . Você pode adicionar essas palavras-chave às suas máscaras usando máscaras de URL ou pontos de entrada.

    Consulte Sobre pontos de entrada de URL .

    Consulte Sobre máscaras de URL .

    Máscara de nome de formulário

    Identifica formulários se a variável As tags <form> em suas páginas da Web contêm um atributo de nome.

    Você pode usar um nome simples ( login_form ), um nome com um curinga ( form* ) ou uma expressão regular ( regexp ^.*authorize.*$ ).

    Geralmente, é possível deixar esse campo vazio, pois os formulários normalmente não têm um atributo de nome.

    Máscara de ID de formulário

    Identifica formulários se a variável As tags <form> em suas páginas da Web contêm um atributo de id.

    Você pode usar um nome simples ( login_form ), um nome com um curinga ( form* ) ou uma expressão regular ( regexp ^.*authorize.*$ ).

    Geralmente, é possível deixar esse campo vazio, pois os formulários normalmente não têm um atributo de nome.

    Parâmetros

    Identifique formulários que contêm ou não contêm um parâmetro nomeado ou um parâmetro nomeado com um valor específico.

    Por exemplo, para identificar um formulário que contenha um parâmetro de email predefinido para rick_brough@mydomain.com, um parâmetro de senha, mas não um parâmetro de nome, você deve especificar as seguintes configurações de parâmetro, uma por linha:

    email=rick_brough@mydomain.com password not first-name

    Envio de formulário

    Substituir URL de ação

    Especifique quando o destino do envio do formulário é diferente do especificado no atributo de ação do formulário.

    Por exemplo, você pode usar essa opção quando o formulário for enviado por meio de uma função JavaScript que constrói um valor de URL diferente do encontrado no formulário.

    Método de Substituição

    Especifique quando o destino do envio do formulário é diferente do que é usado no atributo de ação do formulário e quando o JavaScript que o envia alterou o método.

    Os valores padrão para todos os parâmetros do formulário ( <input> tags, incluindo campos ocultos), o padrão <option> de um <select> e o texto padrão entre <textarea>...</textarea> tags) são lidas na página da Web. No entanto, qualquer parâmetro listado na seção Envio de formulário , no campo Parâmetros , é substituído pelos padrões do formulário.

    Parâmetros

    Você pode prefixar parâmetros de envio do formulário com a variável Palavra-chave not .

    Ao prefixar um parâmetro com not , ele não é enviado como parte do envio do formulário. Esse comportamento é útil para caixas de seleção que devem ser enviadas desmarcadas.

    Por exemplo, suponha que você deseja enviar os seguintes parâmetros:

    • O parâmetro de email com o valor nobody@mydomain.com
    • O parâmetro de senha com o valor tryme
    • O parâmetro da mycheckbox como desmarcado.
    • Todos os outros <form> parâmetros como seus valores padrão

    O parâmetro de envio de formulário seria semelhante ao seguinte:

    email=nobody@mydomain.com password=tryme not mycheckbox

    O atributo de método do A tag <form> na página da Web é usada para decidir se os dados são enviados para o seu servidor usando o método GET ou o método POST.

    Se a variável <form> não contém um atributo de método, o formulário é enviado usando o método GET.

  4. Clique em Add.

  5. (Opcional) Siga um destes procedimentos:

Edição de uma definição de formulário

É possível editar uma definição de formulário existente se um formulário do seu site tiver sido alterado ou se você precisar apenas alterar a definição.

Esteja ciente de que não há nenhum recurso History na página Form Submission para reverter quaisquer alterações feitas em uma definição de formulário.

Certifique-se de recriar o índice do site para que os resultados das alterações fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para editar uma definição de formulário

  1. No menu do produto, clique em Settings > Crawling > Form Submission.

  2. Na página Form Submission , clique em Edit à direita de uma definição de formulário que deseja atualizar.

  3. Na página Edit Form Definition, defina as opções Form Recognition e Form Submission.

    Consulte a tabela de opções em Adicionar definições de formulário para indexar formulários no seu site.

  4. Clique em Save Changes.

  5. (Opcional) Siga um destes procedimentos:

Excluindo uma definição de formulário

É possível excluir uma definição de formulário existente se o formulário não existir mais em seu site ou se você não quiser mais processar e indexar um formulário específico.

Esteja ciente de que não há nenhum recurso History na página Form Submission para reverter quaisquer alterações feitas em uma definição de formulário.

Certifique-se de recriar o índice do site para que os resultados das alterações fiquem visíveis para os clientes.

Consulte Configuração de um índice incremental de um site de preparo.

Para excluir uma definição de formulário

  1. No menu do produto, clique em Settings > Crawling > Form Submission.

  2. Na página Form Submission , clique em Delete à direita de uma definição de formulário que deseja remover.

    Escolha a definição de formulário correta a ser excluída. Não há caixa de diálogo de confirmação de exclusão ao clicar em Delete na próxima etapa.

  3. Na página Delete Form Definition, clique em Delete.

  4. (Opcional) Siga um destes procedimentos:

Sobre o Conector de índice

Use Index Connector para definir fontes de entrada adicionais para indexar páginas XML ou qualquer tipo de feed.

Você pode usar uma fonte de entrada de feed de dados para acessar o conteúdo armazenado em um formulário diferente do que é normalmente descoberto em um site usando um dos métodos de rastreamento disponíveis. Cada documento rastreado e indexado corresponde diretamente a uma página de conteúdo no seu site. No entanto, um feed de dados provém de um documento XML ou de um arquivo de texto delimitado por vírgulas ou por tabulação e contém as informações de conteúdo a serem indexadas.

Uma fonte de dados XML consiste em estrofes XML, ou registros, que contêm informações que correspondem a documentos individuais. Esses documentos individuais são adicionados ao índice. Um feed de dados de texto contém registros individuais delimitados por nova linha que correspondem a documentos individuais. Esses documentos individuais também são adicionados ao índice. Em ambos os casos, uma configuração de conector de índice descreve como interpretar o feed. Cada configuração descreve onde o arquivo reside e como os servidores o acessam. A configuração também descreve informações de "mapeamento". Ou seja, como os itens de cada registro são usados para preencher os campos de metadados no índice resultante.

Após adicionar uma definição de Conector de índice à página Staged Index Connector Definitions, é possível alterar qualquer configuração, exceto para os valores Nome ou Tipo .

A página Index Connector mostra as seguintes informações:

  • O nome dos conectores de índice definidos que você configurou e adicionou.

  • Um dos seguintes tipos de fonte de dados para cada conector adicionado:

    • Texto - Arquivos simples "simples", delimitados por vírgulas, delimitados por tabulação ou outros formatos delimitados de forma consistente.
    • Feed - Feeds XML.
    • XML - Coleções de documentos XML.
  • Se o conector está ativado ou não para o próximo rastreamento e indexação concluída.

  • O endereço da fonte de dados.

Consulte também Sobre o Conector de índice

Como o processo de indexação funciona para configurações de Texto e Feed no Index Connector

Etapa

Processo

Descrição

1

Baixe a fonte de dados.

Para configurações de Texto e Feed, é um download de arquivo simples.

2

Analise a fonte de dados baixada em pseudo-documentos individuais.

Para Texto , cada linha de texto delimitada por linha corresponde a um documento individual e é analisada usando o delimitador especificado, como uma vírgula ou tabulação.

Para Feed , os dados de cada documento são extraídos usando um padrão de expressão regular no seguinte formulário:

<${Itemtag}>(.*?)</${Itemtag}>

Usando Mapeie na página Adicionar Conector de Índice , crie uma cópia em cache dos dados e crie uma lista de links para o crawler. Os dados são armazenados em um cache local e são preenchidos com os campos configurados.

Os dados analisados são gravados no cache local.

Esse cache é lido posteriormente para criar os documentos HTML simples de que o crawler precisa. Por exemplo,

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

O elemento <title> só é gerado quando existe um mapeamento para o campo de metadados Title . Da mesma forma, o elemento <body> só é gerado quando existe um mapeamento para o campo de metadados do Corpo.

Importante: Não há suporte para a atribuição de valores à meta tag de URL predefinida.

Para todos os outros mapeamentos, as tags <meta> são geradas para cada campo que tem dados encontrados no documento original.

Os campos de cada documento são adicionados ao cache. Para cada documento gravado no cache, um link também é gerado como nos exemplos a seguir:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

O mapeamento da configuração deve ter um campo identificado como Chave primária. Esse mapeamento forma a chave usada quando os dados são obtidos do cache.

O crawler reconhece o índice de URL : prefixo do esquema, que pode então acessar os dados armazenados em cache localmente.

3

Rastreie o conjunto de documentos em cache.

O índice : os links são adicionados à lista pendente do crawler e são processados na sequência de rastreamento normal.

4

Processar cada documento.

O valor da chave de cada link corresponde a uma entrada no cache, portanto, o rastreamento de cada link resulta na busca dos dados desse documento do cache. Ele é então "montado" em uma imagem HTML que é processada e adicionada ao índice.

Como o processo de indexação funciona para configurações XML no Conector de índice

O processo de indexação da configuração XML é semelhante ao processo das configurações de Texto e Feed com as seguintes pequenas alterações e exceções.

Como os documentos para rastreamentos XML já estão separados em arquivos individuais, as etapas 1 e 2 na tabela acima não se aplicam diretamente. Se você especificar uma URL nos campos Host Address e File Path da página Index Connector Add, ela será baixada e processada como um documento HTML normal. A expectativa é que o documento de download contenha uma coleção de links <a href="{url}"..., cada um dos quais aponta para um documento XML que é processado. Esses links são convertidos no seguinte formulário:

<a href="index:<ic_config_name>?url="{url}">

Por exemplo, se a configuração Adobe retornou os seguintes links:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

Na tabela acima, a etapa 3 não se aplica e a etapa 4 é concluída no momento do rastreamento e indexação.

Como alternativa, você pode combinar seus documentos XML com outros documentos que foram descobertos naturalmente pelo processo de rastreamento. Nesses casos, você pode usar as regras de regravação ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) para alterar os URLs dos documentos XML para direcioná-los para o Index Connector.

Consulte Sobre as Regras de Recuperação de URL da Lista de Rastreamento.

Por exemplo, supostamente você tem a seguinte regra de reescrita:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Essa regra converte qualquer URL que termine com .xml em um link de Conector de índice. O crawler reconhece e regrava o esquema de URL index:. O processo de download é redirecionado por meio do servidor Apache do Conector de índice no primário. Cada documento baixado é examinado usando o mesmo padrão de expressão regular usado com Feeds. Nesse caso, no entanto, o documento HTML fabricado não é salvo no cache. Em vez disso, é entregue diretamente ao crawler para processamento do índice.

Como configurar vários Conectores de índice

É possível definir várias configurações do Conector de índice para qualquer conta. As configurações são adicionadas automaticamente à lista suspensa em Settings > Crawl > URL Entrypoints, conforme mostrado na ilustração a seguir:

Selecionar uma configuração na lista suspensa adiciona o valor ao final da lista de pontos de entrada de URL.

OBSERVAÇÃO

Embora as configurações desabilitadas do Conector de índice sejam adicionadas à lista suspensa, não é possível selecioná-las. Se você selecionar a mesma configuração do Conector de índice pela segunda vez, ela será adicionada ao final da lista e a instância anterior será excluída.

Para especificar um ponto de entrada do Conector de índice para um rastreamento incremental, é possível adicionar entradas usando o seguinte formato:

index:<indexconnector_configuration_name>

O crawler processa cada entrada adicionada se ela for encontrada na página Index Connectors e estiver ativada.

Observação: Como o URL de cada documento é construído usando o nome de configuração do Conector de índice e a chave primária do documento, certifique-se de usar o mesmo nome de configuração do Conector de índice ao executar atualizações incrementais! Isso permite que Adobe Search&Promote atualize corretamente os documentos indexados anteriormente.

Consulte também Sobre pontos de entrada de URL.

O uso de Mapas de configuração ao adicionar um Conector de índice

No momento em que você adiciona um Conector de índice, é possível usar opcionalmente o recurso Setup Maps para baixar uma amostra da fonte de dados. Os dados são examinados quanto à adequação da indexação.

Se você escolher o tipo Index Connector ...

O recurso de Mapas de configuração...

Texto

Determina o valor do delimitador experimentando as guias primeiro e depois as barras verticais ( | ) e finalmente vírgulas ( , ). Se você já especificou um valor de delimitador antes de clicar em Configurar Mapas , esse valor é usado.

O esquema de melhor ajuste resulta no preenchimento dos campos de Mapa com suposições nos valores de Tag e Campo apropriados. Além disso, uma amostragem dos dados analisados é exibida. Certifique-se de selecionar Cabeçalhos na Primeira Linha se você sabe que o arquivo inclui uma linha de cabeçalho. A função de configuração usa essas informações para identificar melhor as entradas de mapa resultantes.

Feed

Baixe a fonte de dados e executa uma análise XML simples.

Os identificadores XPath resultantes são exibidos nas linhas de tag da tabela Map e valores semelhantes em Campos. Essas linhas identificam apenas os dados disponíveis e não geram as definições XPath mais complicadas. No entanto, ainda é útil porque descreve os dados XML e identifica valores de Itemtag.

Observação: A função Configurar Mapas baixa toda a origem XML para executar sua análise. Se o arquivo for grande, essa operação pode esgotar o tempo limite.

Quando bem-sucedida, essa função identifica todos os itens XPath possíveis, muitos dos quais não são desejáveis para uso. Certifique-se de examinar as definições de Mapa resultantes e remover as que não são necessárias ou não.

XML

Faz o download do URL de um documento individual representativo, não da lista de links primária. Este único documento é analisado usando o mesmo mecanismo usado com Feeds, e os resultados são exibidos.

Antes de clicar em Adicionar para salvar a configuração, altere o URL de volta para o documento da lista de links primária.

Importante: O recurso de Mapas de configuração pode não funcionar para grandes conjuntos de dados XML porque o analisador de arquivos tenta ler o arquivo inteiro na memória. Como resultado, você pode experimentar uma condição de falta de memória. No entanto, quando o mesmo documento é processado no momento da indexação, ele não é lido na memória. Em vez disso, documentos grandes são processados "em movimento" e não são lidos inteiramente na memória primeiro.

O uso de Visualização ao adicionar um Conector de índice

No momento em que você adiciona um Conector de índice, é possível usar opcionalmente o recurso Preview para validar os dados, como se estivesse salvando. Ele executa um teste em relação à configuração, mas sem salvar a configuração na conta. O teste acessa a fonte de dados configurada. No entanto, ele grava o cache de download em um local temporário; ele não entra em conflito com a pasta de cache principal que o crawler de indexação usa.

A Visualização só processa um padrão de cinco documentos, conforme controlado por Acct:IndexConnector-Preview-Max-Documents. Os documentos visualizados são exibidos no formulário de origem, conforme são apresentados ao crawler de indexação. A exibição é semelhante a um recurso "Exibir fonte" em um navegador da Web. Você pode navegar pelos documentos no conjunto de visualização usando links de navegação padrão.

A visualização não oferece suporte a configurações XML porque esses documentos são processados diretamente e não baixados no cache.

Adicionar uma definição de Conector de índice

Cada configuração do Conector de índice define uma fonte de dados e os mapeamentos para relacionar os itens de dados definidos para essa fonte aos campos de metadados no índice.

Antes que os efeitos da definição nova e ativada sejam visíveis para os clientes, recrie o índice do site.

Para adicionar uma definição de Conector de índice

  1. No menu do produto, clique em Settings > Crawling > Index Connector.

  2. Na página Stage Index Connector Definitions, clique em Add New Index Connector.

  3. Na página Index Connector Add, defina as opções de conector desejadas. As opções disponíveis dependem do Type que você selecionou.

    Opção

    Descrição

    Nome

    O nome exclusivo da configuração do Conector de índice. Você pode usar caracteres alfanuméricos. Os caracteres "_" e "-" também são permitidos.

    Tipo

    A fonte de seus dados. O tipo de fonte de dados selecionado afeta as opções resultantes disponíveis na página Adicionar Conector de índice. Você pode escolher entre:

    • Texto

      Arquivos de texto simples, delimitados por vírgulas, delimitados por tabulação ou outros formatos consistentemente delimitados. Cada linha de texto delimitada por linha corresponde a um documento individual e é analisada usando o delimitador especificado.

      Você pode mapear cada valor, ou coluna, para um campo de metadados, referenciado pelo número da coluna, começando em 1 (um).

    • Feed

      Faz o download de um documento XML principal que contém várias "linhas" de informações.

    • XML

      Faz o download de um documento XML principal que contém links ( <a> ) para documentos XML individuais.

    Tipo de fonte de dados: Texto

    Ativado

    Torna a configuração "ativada" para rastrear e indexar. Ou você pode desativar a configuração para evitar o rastreamento e a indexação.

    Observação: As configurações do Conector de índice desativado são ignoradas se forem encontradas em uma lista de pontos de entrada.

    Endereço do host

    Especifica o endereço do host do servidor onde seus dados estão localizados.

    Se desejar, você pode especificar um caminho URI completo (Identificador de recurso uniforme) para o documento da fonte de dados, como nos exemplos a seguir:

    https://www.somewhere.com/some_path/some_file.xml

    ou

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    O URI é dividido nas entradas apropriadas para os campos Endereço do Host, Caminho do Arquivo, Protocolo e, opcionalmente, Nome de Usuário e Senha.

    Especifica o endereço IP ou o endereço de URL do sistema host onde o arquivo de fonte de dados é encontrado.

    Caminho do arquivo

    Especifica o caminho para o arquivo de texto simples, delimitado por vírgulas, delimitado por tabulação ou outro arquivo de formato delimitado de forma consistente.

    O caminho é relativo à raiz do endereço de host.

    Caminho do arquivo incremental

    Especifica o caminho para o arquivo de texto simples, delimitado por vírgulas, delimitado por tabulação ou outro arquivo de formato delimitado de forma consistente.

    O caminho é relativo à raiz do endereço de host.

    Esse arquivo, se especificado, é baixado e processado durante as operações de Índice incremental. Se nenhum arquivo for especificado, o arquivo listado em Caminho do arquivo será usado.

    Caminho do arquivo vertical

    Especifica o caminho para o arquivo de texto simples, delimitado por vírgulas, delimitado por tabulação ou outro arquivo de formato delimitado de forma consistente a ser usado durante uma Atualização Vertical.

    O caminho é relativo à raiz do endereço de host.

    Esse arquivo, se especificado, é baixado e processado durante as operações de Atualização vertical.

    Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    Exclui caminho de arquivo

    Especifica o caminho para o arquivo de texto simples, contendo um único valor de identificador de documento por linha.

    O caminho é relativo à raiz do endereço de host.

    Esse arquivo, se especificado, é baixado e processado durante as operações de Índice incremental. Os valores encontrados neste arquivo são usados para criar solicitações de "exclusão" para remover documentos indexados anteriormente. Os valores nesse arquivo devem corresponder aos valores encontrados nos arquivos Caminho do Arquivo Completo ou Incremental, na coluna identificada como a Chave Primária .

    Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    Protocolo

    Especifica o protocolo usado para acessar o arquivo. Você pode escolher entre:

    • HTTP

      Se necessário, você pode inserir credenciais de autenticação apropriadas para acessar o servidor HTTP.

    • HTTPS

      Se necessário, você pode inserir credenciais de autenticação apropriadas para acessar o servidor HTTPS.

    • FTP

      Você deve inserir credenciais de autenticação apropriadas para acessar o servidor FTP.

    • SFTP

      Você deve inserir credenciais de autenticação apropriadas para acessar o servidor SFTP.

    • Arquivo

    Tempo limite

    Especifica o tempo limite, em segundos, para conexões FTP, SFTP, HTTP ou HTTPS. Esse valor deve estar entre 30 e 300.

    Tentativas

    Especifica o número máximo de tentativas para conexões FTP, SFTP, HTTP ou HTTPS com falha. Esse valor deve estar entre 0 e 10.

    Um valor zero (0) impedirá tentativas de repetição.

    Codificação

    Especifica o sistema de codificação de caracteres usado no arquivo de fonte de dados especificado.

    Delimitador

    Especifica o caractere que você deseja usar para delinear cada campo no arquivo de fonte de dados especificado.

    O caractere de vírgula ( , ) é um exemplo de delimitador. A vírgula atua como um delimitador de campo que ajuda a separar campos de dados no arquivo de fonte de dados especificado.

    Selecione Guia? para usar o caractere de tabulação horizontal como delimitador.

    Cabeçalhos na Primeira Linha

    Indica que a primeira linha do arquivo de fonte de dados contém apenas informações de cabeçalho, não dados.

    Número mínimo de documentos para indexação

    Se definido como um valor positivo, isso especifica o número mínimo de registros esperado no arquivo baixado. Se forem recebidos menos registros, a operação de índice será anulada.

    Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    Observação: Esse recurso é usado somente durante operações de Índice completo.

    Mapa

    Especifica mapeamentos de coluna para metadados, usando números de coluna.

    • Coluna

      Especifica um número de coluna, com a primeira coluna sendo 1 (uma). Para adicionar novas linhas de mapa para cada coluna, em Ação , clique em + .

      Não é necessário fazer referência a cada coluna na fonte de dados. Em vez disso, você pode optar por ignorar os valores.

    • Campo

      Define o valor do atributo de nome usado para cada tag <meta> gerada.

    • Metadados?

      Faz com que Campo se torne uma lista suspensa na qual você pode selecionar campos de metadados definidos para a conta atual.

      O valor Campo pode ser um campo de metadados indefinido, se desejado. Um campo de metadados indefinido às vezes é útil para criar conteúdo usado por Filtering Script .

      Consulte Sobre o script de filtragem .

      Quando o Index Connector processa documentos XML com várias ocorrências em qualquer campo de mapa, os vários valores são concatenados em um único valor no documento em cache resultante. Por padrão, esses valores são combinados com um delimitador de vírgula. No entanto, suponha que o valor Campo correspondente seja um campo de metadados definido. Além disso, esse campo tem o conjunto de atributos Lista de permissões . Nesse caso, o valor Delimitadores de lista do campo, que é o primeiro delimitador definido, é usado na concatenação.

    • Chave primária?

      Somente uma definição de mapa é identificada como a chave primária. Este campo se torna a referência exclusiva que é apresentada quando este documento é adicionado ao índice. Esse valor é usado no URL do documento no Índice.

      Os valores Chave Primária devem ser exclusivos em todos os documentos representados pela configuração do Conector de Índice - todas as duplicatas encontradas serão ignoradas. Se os documentos de origem não contiverem um único valor exclusivo para usar como Chave Primária , mas dois ou mais campos juntos podem formar um identificador exclusivo, você poderá definir a Chave Primária combinando vários valores Coluna com uma barra vertical ("|") delimitando os valores.

    • Strip HTML?

      Quando essa opção é marcada, todas as tags HTML encontradas nos dados deste campo são removidas.

    • Ação

      Permite adicionar linhas ao mapa ou remover linhas do mapa. A ordem das linhas não é importante.

    Tipo de fonte de dados: Feed

    Ativado

    Torna a configuração "ativada" para rastrear e indexar. Ou você pode desativar a configuração para evitar o rastreamento e a indexação.

    Observação: As configurações do Conector de índice desativado são ignoradas se forem encontradas em uma lista de pontos de entrada.

    Endereço do host

    Especifica o endereço IP ou o endereço de URL do sistema host onde o arquivo de fonte de dados é encontrado.

    Caminho do arquivo

    Especifica o caminho para o documento XML principal que contém várias "linhas" de informações.

    O caminho é relativo à raiz do endereço de host.

    Caminho do arquivo incremental

    Especifica o caminho para o documento XML incremental que contém várias "linhas" de informações.

    O caminho é relativo à raiz do endereço de host.

    Esse arquivo, se especificado, é baixado e processado durante as operações de Índice incremental. Se nenhum arquivo for especificado, o arquivo listado em Caminho do arquivo será usado.

    Caminho do arquivo vertical

    Especifica o caminho para o documento XML que contém várias "linhas" esparsas de informações a serem usadas durante uma Atualização Vertical.

    O caminho é relativo à raiz do endereço de host.

    Esse arquivo, se especificado, é baixado e processado durante as operações de Atualização vertical.

    Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    Exclui caminho de arquivo

    Especifica o caminho para o arquivo de texto simples, contendo um único valor de identificador de documento por linha.

    O caminho é relativo à raiz do endereço de host.

    Esse arquivo, se especificado, é baixado e processado durante as operações de Índice incremental. Os valores encontrados neste arquivo são usados para criar solicitações de "exclusão" para remover documentos indexados anteriormente. Os valores nesse arquivo devem corresponder aos valores encontrados nos arquivos Caminho do Arquivo Completo ou Incremental, na coluna identificada como a Chave Primária .

    Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    Protocolo

    Especifica o protocolo usado para acessar o arquivo. Você pode escolher entre:

    • HTTP

      Se necessário, você pode inserir credenciais de autenticação apropriadas para acessar o servidor HTTP.

    • HTTPS

      Se necessário, você pode inserir credenciais de autenticação apropriadas para acessar o servidor HTTPS.

    • FTP

      Você deve inserir credenciais de autenticação apropriadas para acessar o servidor FTP.

    • SFTP

      Você deve inserir credenciais de autenticação apropriadas para acessar o servidor SFTP.

    • Arquivo

    Itemtag

    Identifica o elemento XML que pode ser usado para identificar linhas XML individuais no arquivo de fonte de dados especificado.

    Por exemplo, no fragmento de Feed a seguir de um documento Adobe XML, o valor de Itemtag é record :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=pt-BR"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=pt-BR"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Número mínimo de documentos para indexação

    Se definido como um valor positivo, isso especifica o número mínimo de registros esperado no arquivo baixado. Se forem recebidos menos registros, a operação de índice será anulada.

    Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    Observação: Esse recurso é usado somente durante operações de Índice completo.

    Mapa

    Permite que você especifique mapeamentos de elemento para metadados XML, usando expressões XPath.

    • Adicionar tag

      Especifica uma representação XPath dos dados XML analisados. Usando o documento Adobe XML de exemplo acima, na opção Item , ele pode ser mapeado usando a seguinte sintaxe:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      A sintaxe acima é traduzida da seguinte maneira:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        O atributo display do elemento record mapeia para o campo de metadados page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        O atributo content de qualquer elemento meta contido num elemento de metadados , contido num elemento de registro , cujo atributo de nome é título , mapeia para o campo de metadados título <a11/ >.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        O atributo content de qualquer elemento meta contido num elemento de metadados , contido no elemento record , cujo atributo name é descrição , mapeia para o campo de metadados desc .

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        O atributo content de qualquer elemento meta contido em um elemento de metadados , contido no elemento record , cujo atributo name é descrição , mapeia para o campo de metadados body <a11/ >.

      XPath é uma notação relativamente complicada. Mais informações estão disponíveis no seguinte local:

      Consulte https://www.w3schools.com/xpath/

    • Campo

      Define o valor do atributo de nome usado para cada tag <meta> gerada.

    • Metadados?

      Faz com que Campo se torne uma lista suspensa na qual você pode selecionar campos de metadados definidos para a conta atual.

      O valor Campo pode ser um campo de metadados indefinido, se desejado. Um campo de metadados indefinido às vezes é útil para criar conteúdo usado por Filtering Script .

      Consulte Sobre o script de filtragem .

      Quando o Index Connector processa documentos XML com várias ocorrências em qualquer campo de mapa, os vários valores são concatenados em um único valor no documento em cache resultante. Por padrão, esses valores são combinados com um delimitador de vírgula. No entanto, suponha que o valor Campo correspondente seja um campo de metadados definido. Além disso, esse campo tem o conjunto de atributos Lista de permissões . Nesse caso, o valor Delimitadores de lista do campo, que é o primeiro delimitador definido, é usado na concatenação.

    • Chave primária?

      Somente uma definição de mapa é identificada como a chave primária. Este campo se torna a referência exclusiva que é apresentada quando este documento é adicionado ao índice. Esse valor é usado no URL do documento no Índice.

      Os valores Chave Primária devem ser exclusivos em todos os documentos representados pela configuração do Conector de Índice - todas as duplicatas encontradas serão ignoradas. Se os documentos de origem não contiverem um único valor exclusivo para uso como Chave Primária , mas dois ou mais campos juntos podem formar um identificador exclusivo, você poderá definir a Chave Primária combinando várias definições Tag com uma barra vertical ("|") delimitando os valores.

    • Strip HTML?

      Quando essa opção é marcada, todas as tags HTML encontradas nos dados deste campo são removidas.

    • Usar para excluir?

      Usado somente durante operações de Índice Incremental. Registros correspondentes a este padrão XPath identificam itens para exclusão. O valor Chave Primária para cada registro desse tipo é usado para criar solicitações "delete", como com Excluir Caminho de Arquivo.

      Observação: Esse recurso não é habilitado por padrão. Entre em contato com o Suporte Técnico para ativar o recurso para uso.

    • Ação

      Permite adicionar linhas ao mapa ou remover linhas do mapa. A ordem das linhas não é importante.

    Tipo de fonte de dados: XML

    Ativado

    Torna a configuração "ativada" para rastrear e indexar. Ou você pode desativar a configuração para evitar o rastreamento e a indexação.

    Observação: As configurações do Conector de índice desativado são ignoradas se forem encontradas em uma lista de pontos de entrada.

    Endereço do host

    Especifica o endereço de URL do sistema host onde o arquivo de fonte de dados é encontrado.

    Caminho do arquivo

    Especifica o caminho para o documento XML principal que contém links ( <a> ) para documentos XML individuais.

    O caminho é relativo à raiz do endereço de host.

    Protocolo

    Especifica o protocolo usado para acessar o arquivo. Você pode escolher entre:

    • HTTP

      Se necessário, você pode inserir credenciais de autenticação apropriadas para acessar o servidor HTTP.

    • HTTPS

      Se necessário, você pode inserir credenciais de autenticação apropriadas para acessar o servidor HTTPS.

    • FTP

      Você deve inserir credenciais de autenticação apropriadas para acessar o servidor FTP.

    • SFTP

      Você deve inserir credenciais de autenticação apropriadas para acessar o servidor SFTP.

    • Arquivo

    Observação: A configuração Protocolo só é usada quando há informações especificadas nos campos Endereço do Host e/ou Caminho do Arquivo. Documentos XML individuais são baixados usando HTTP ou HTTPS, de acordo com suas especificações de URL.

    Itemtag

    Identifica o elemento XML que define uma "linha" no arquivo de fonte de dados especificado.

    Mapa

    Permite que você especifique mapeamentos de coluna para metadados, usando números de coluna.

    • Adicionar tag

      Especifica uma representação XPath dos dados XML analisados. Usando o documento Adobe XML de exemplo acima, na opção Item , é possível mapeá-lo usando a seguinte sintaxe:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      A sintaxe acima é traduzida da seguinte maneira:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        O atributo display do elemento record mapeia para o campo de metadados page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        O atributo content de qualquer elemento meta contido num elemento de metadados , contido num elemento de registro , cujo atributo de nome é título , mapeia para o campo de metadados título <a11/ >.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        O atributo content de qualquer elemento meta contido num elemento de metadados , contido no elemento record , cujo atributo name é descrição , mapeia para o campo de metadados desc .

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        O atributo content de qualquer elemento meta contido em um elemento de metadados , contido no elemento record , cujo atributo name é descrição , mapeia para o campo de metadados body <a11/ >.

      XPath é uma notação relativamente complicada. Mais informações estão disponíveis no seguinte local:

      Consulte https://www.w3schools.com/xpath/

    • Campo

      Define o valor do atributo de nome usado para cada tag <meta> gerada.

    • Metadados?

      Faz com que Campo se torne uma lista suspensa na qual você pode selecionar campos de metadados definidos para a conta atual.

      O valor Campo pode ser um campo de metadados indefinido, se desejado. Um campo de metadados indefinido às vezes é útil para criar conteúdo usado por Filtering Script .

      Consulte Sobre o script de filtragem .

      Quando o Index Connector processa documentos XML com várias ocorrências em qualquer campo de mapa, os vários valores são concatenados em um único valor no documento em cache resultante. Por padrão, esses valores são combinados com um delimitador de vírgula. No entanto, suponha que o valor Campo correspondente seja um campo de metadados definido. Além disso, esse campo tem o conjunto de atributos Lista de permissões . Nesse caso, o valor Delimitadores de lista do campo, que é o primeiro delimitador definido, é usado na concatenação.

    • Chave primária?

      Somente uma definição de mapa é identificada como a chave primária. Este campo se torna a referência exclusiva que é apresentada quando este documento é adicionado ao índice. Esse valor é usado no URL do documento no Índice.

      Os valores Chave Primária devem ser exclusivos em todos os documentos representados pela configuração do Conector de Índice - todas as duplicatas encontradas serão ignoradas. Se os documentos de origem não contiverem um único valor exclusivo para uso como Chave Primária , mas dois ou mais campos juntos podem formar um identificador exclusivo, você poderá definir a Chave Primária combinando várias definições Tag com uma barra vertical ("|") delimitando os valores.

    • Strip HTML?

      Quando essa opção é marcada, todas as tags HTML encontradas nos dados deste campo são removidas.

    • Ação

      Permite adicionar linhas ao mapa ou remover linhas do mapa. A ordem das linhas não é importante.

  4. (Opcional) Clique em Setup Maps para baixar uma amostra da fonte de dados. Os dados são examinados quanto à adequação da indexação. Esse recurso está disponível somente para Tipos de texto e feed.

  5. (Opcional) Clique em Preview para testar o funcionamento real da configuração. Esse recurso está disponível somente para Tipos de texto e feed.

  6. Clique em Add para adicionar a configuração à página Index Connector Definitions e à lista suspensa Index Connector Configurations na página URL Entrypoints.

    Consulte Sobre pontos de entrada de URL.

  7. Na página Index Connector Definitions, clique em rebuild your staged site index.

  8. (Opcional) Na página Index Connector Definitions , siga um destes procedimentos:

Editar uma definição de Conector de índice

É possível editar um Conector de índice existente definido por você.

OBSERVAÇÃO

Nem todas as opções estão disponíveis para alteração, como Nome do conector de índice ou Tipo na lista suspensa Type.

Para editar uma definição de Conector de índice

  1. No menu do produto, clique em Settings > Crawling > Index Connector.

  2. Na página Index Connector , no cabeçalho da coluna Actions, clique em Edit para obter um nome de definição do Conector de índice cujas configurações você deseja alterar.

  3. Na página Index Connector Edit, defina as opções desejadas.

    Consulte a tabela de opções em Adicionar uma definição de Conector de índice.

  4. Clique em Save Changes.

  5. (Opcional) Na página Index Connector Definitions, clique em rebuild your staged site index.

  6. (Opcional) Na página Index Connector Definitions , siga um destes procedimentos:

Visualização das configurações de uma definição de Conector de índice

Você pode revisar as configurações de uma definição de conector de índice existente.

Depois que uma definição de Conector de índice é adicionada à página Index Connector Definitions, não é possível alterar sua configuração de Tipo. Em vez disso, você deve excluir a definição e, em seguida, adicionar uma nova.

Para exibir as configurações de uma definição de Conector de índice

  1. No menu do produto, clique em Settings > Crawling > Index Connector.
  2. Na página Index Connector , no cabeçalho da coluna Actions, clique em Edit para obter um nome de definição do Conector de índice cujas configurações você deseja revisar ou editar.

Copiando uma definição do Conector de índice

Você pode copiar uma definição de Conector de índice existente para usar como a base para um novo Conector de índice que deseja criar.

Ao copiar uma definição do Conector de índice, a definição copiada é desativada por padrão. Para ativar ou "ativar" a definição, você deve editá-la na página Index Connector Edit e selecionar Enable.

Consulte Editar uma definição de Conector de índice.

Para copiar uma definição de Conector de índice

  1. No menu do produto, clique em Settings > Crawling > Index Connector.

  2. Na página Index Connector , no cabeçalho da coluna Actions, clique em Copy para obter um nome de definição do Conector de índice cujas configurações você deseja duplicar.

  3. Na página Index Connector Copy, insira o novo nome da definição.

  4. Clique em Copy.

  5. (Opcional) Na página Index Connector Definitions , siga um destes procedimentos:

Renomear uma definição de Conector de índice

Você pode alterar o nome de uma definição existente do Conector de índice.

Depois de renomear a definição, marque Settings > Crawling > URL Entrypoints. Certifique-se de que o novo nome da definição seja refletido na lista suspensa na página URL Entrypoints.

Consulte Adicionar vários pontos de entrada de URL que você deseja indexar.

Para renomear uma definição de Conector de índice

  1. No menu do produto, clique em Settings > Crawling > Index Connector.

  2. Na página Index Connector , no cabeçalho da coluna Actions, clique em Rename para obter o nome de definição do Conector de índice que deseja alterar.

  3. Na página Index Connector Rename, insira o novo nome da definição no campo Name.

  4. Clique em Rename.

  5. Clique em Settings > Crawling > URL Entrypoints. Se o nome do Conector de índice anterior estiver presente na lista, remova-o e adicione a entrada renomeada recentemente.

    Consulte Adicionar vários pontos de entrada de URL que você deseja indexar. 1. (Opcional) Na página Index Connector Definitions , siga um destes procedimentos:

Excluindo uma definição de Conector de índice

É possível excluir uma definição existente do Conector de índice que não é mais necessária ou usada.

Para excluir uma definição de Conector de índice

  1. No menu do produto, clique em Settings > Crawling > Index Connector.
  2. Na página Index Connector Definitions , no cabeçalho da coluna Actions, clique em Delete para obter o nome de definição do Conector de índice que deseja remover.
  3. Na página Index Connector Delete, clique em Delete.

Nesta página