Perguntas frequentes

Flash Adobe

Uma página de perguntas frequentes que discute o suporte à indexação e pesquisa de arquivos SWF em um site.

Veja a seguir perguntas comuns sobre arquivos SWF:

Quando um arquivo SWF é rastreado e indexado?

Um arquivo SWF é rastreado e indexado se estiver contido em uma tag embed ou object em uma página HTML, como no exemplo a seguir:

<embed src="Flash-file-URL">  
 
<object>  
<param name=movie value="Flash-file-URL">  
</object> 

Um arquivo SWF também é reconhecido se você listar o URL do arquivo como ponto de entrada.

Consulte Adicionar vários pontos de entrada de URL que você deseja indexar.

O que preciso fazer para indexar um arquivo SWF?

Para rastrear e indexar arquivos SWF, selecione o tipo de conteúdo Adobe Flash Movies ( Settings > Crawling > Content Types).

Desde que seu arquivo de Flash seja referenciado a partir de uma tag <embed> ou <object> em um documento HTML, o texto será indexado e todos os URLs listados no arquivo serão rastreados.

Se o arquivo não for referenciado a partir de uma tag <embed> ou <object> , é possível listar o arquivo SWF em uma tag <a href=...> em um documento HTML ou como um ponto de entrada de URL.

Consulte Adicionar vários pontos de entrada de URL que você deseja indexar.

Como os arquivos SWF são reconhecidos?

Os arquivos SWF são identificados pelo seguinte tipo MIME:

application/x-shockwave-flash

Arquivos SWF também são reconhecidos com os tipos MIME application/octet-stream" ou text/plain, desde que a extensão de arquivo seja .swf.

Um servidor mal configurado pode usar um tipo MIME diferente para arquivos SWF. Verifique a configuração do servidor se tiver problemas ao rastrear e indexar arquivos SWF.

Como os arquivos SWF são indexados?

O texto contido em um arquivo SWF é indexado como se fosse texto <body> na página HTML anexada. Se um resultado de pesquisa encontrar o texto contido em um arquivo SWF incorporado, o resultado na verdade vincula à página HTML circundante e não ao arquivo SWF. Dessa forma, o arquivo SWF é exibido no contexto correto.

Se um arquivo SWF contiver um URL como uma ação "Carregar filme", o texto no arquivo SWF referenciado será indexado como parte da página HTML de inclusão.

Se um arquivo SWF contiver um URL como uma ação "Obter URL", o URL será rastreado e indexado posteriormente, assim como uma referência HTML <a href=...> é rastreada e indexada posteriormente.

Se um arquivo SWF for listado como um ponto de entrada de URL, o texto do arquivo SWF será indexado como uma única página. Um resultado de pesquisa que encontra texto de um SWF de ponto de entrada vinculado diretamente ao filme, não a uma página HTML anexada.

Consulte Adicionar vários pontos de entrada de URL que você deseja indexar.

Um arquivo SWF conta como uma página?

Não. Um arquivo SWF é considerado parte de sua página HTML de inclusão. Todas as URLs "Carregar filme" contidas em arquivos SWF também são consideradas parte da página HTML de inclusão. Portanto, os arquivos SWF referenciados de uma página HTML não contam como uma "página" para o total da página da conta.

Se um arquivo SWF for listado como um ponto de entrada de URL, esse arquivo SWF e todos os URLs "Carregar filme" listados nesse arquivo SWF serão contados como uma "página" para o total da página da conta.

Como impedir a indexação de arquivos SWF individuais?

Para impedir a indexação de um arquivo SWF, você pode adicionar uma meta tag ( <meta name="ROBOTS" content="NOINDEX">) ou <noindex> tag ao documento HTML de inclusão. Ou seja, o documento que contém a tag <embed> ou <object>.

Você também pode usar a meta tag ( <meta name="ROBOTS" content="NOFOLLOW">) dos robôs para evitar os seguintes URLs contidos no arquivo SWF. Se o documento HTML de inclusão tiver sido desativado, as URLs listadas como ações “Obter URL” no arquivo SWF não serão seguidas.

Como impedir que arquivos SWF sejam indexados no meu site?

Para desabilitar a indexação SWF, desmarque o tipo de conteúdo Adobe Flash Movies ( Settings > Crawling > Content Types).

Você também pode optar por usar URL Masks para desabilitar a indexação de arquivos SWF.

Consulte Adicionar máscaras de URL para indexar ou não partes de índice de….

Para desativar a indexação SWF, insira uma das seguintes máscaras de URL:

  • exclude *.swf (se você não estiver usando expressões regulares)
  • exclude regexp ^.*\.swf$ (se estiver usando expressões regulares)

Consulte Expressões regulares.

Por que não posso pesquisar os arquivos SWF chineses, japoneses ou coreanos no meu site?

Comercialização/pesquisa de site obtém UTF-8 de arquivos SWF criados com o Flash Adobe. O UTF-8 não contém nenhuma indicação de idioma. Se você selecionou o tipo de conteúdo Adobe Flash Movies ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o idioma usado pelo arquivo SWF.

Consulte Adicionar definições de injeção de campo.

Arquivos SWF antigos também não especificam um conjunto de caracteres. Se você selecionou o tipo de conteúdo SWF Adobe Flash Movies ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o conjunto de caracteres usado no arquivo SWF.

Pesquisa geral

Uma página de perguntas frequentes que discute como a pesquisa/comercialização do site ajuda os clientes que visitam seu site a encontrar o que estão procurando.

Estas são perguntas comuns sobre a pesquisa geral:

Veja a seguir perguntas comuns sobre recursos de pesquisa:

Preciso instalar algum software para usar a pesquisa/comercialização do site?

Não. Essa é a principal vantagem da pesquisa/comercialização do site. O mecanismo é um aplicativo profissional hospedado e mantido inteiramente em nossos servidores de alto desempenho. Isso torna o software mais fácil de usar do que outras soluções de pesquisa. A única coisa que você precisa fazer é adicionar uma pequena quantidade de código HTML às suas páginas para que os clientes do seu site possam inserir pesquisas. A pesquisa/comercialização do site cuida de todo o resto.

O que acontece quando meu site excede o limite de página?

Continuamos servindo suas pesquisas para que seus visitantes possam pesquisar seu site sem interrupções. Para ver se o site excede o limite de páginas, revise o status de Índice completo ou o Log em tempo real.

Consulte Sobre o Índice Completo.

Consulte Visualizando o log de índice completo de um ativo ou preparado….

Como faço para alterar o endereço de email para onde os relatórios semanais são enviados?

Relatórios semanais são enviados ao proprietário de cada conta ativa. Você pode alterar o endereço de email clicando em Settings > My Profile > Personal Information. Se você tiver mais de uma conta de pesquisa ativa, todos os boletins informativos serão enviados para o novo endereço.

Consulte Configurar as informações pessoais do usuário.

Qual é a segurança das informações do cliente em pesquisa/merchandising do site?

A pesquisa/comercialização do site é segura, rápida, estável e fácil de usar. Você não é forçado a usar cookies (embora seja possível usá-los) para usar nossos produtos, e informações confidenciais, como senhas, nunca são colocadas em nenhum link de URL que possa ser recuperado posteriormente de seu navegador.

E quanto à privacidade das informações do meu cliente?

O Adobe tem o compromisso de atender à privacidade de seus clientes e visitantes. Consulte o Adobe Centro de privacidade.

Posso mostrar meus próprios anúncios de banner nas páginas de resultados da pesquisa?

Sim. Você controla a aparência e o conteúdo dos resultados da pesquisa. No modelo de resultados da pesquisa para seu site, você pode criar links para sua própria rede de troca de banners, como LinkExchange ou SmartClicks. Quaisquer ocorrências feitas pelos visitantes são creditadas corretamente à conta de troca de banner.

Posso personalizar os resultados da pesquisa para o meu site?

Sim. Esse é um recurso exclusivo de pesquisa/comercialização do site. Com nossa tecnologia de modelo avançada e um pouco de conhecimento em HTML, você pode controlar exatamente como os resultados da pesquisa aparecem.

Consulte Pesquisar marcas de modelo.

A transição entre seus próprios servidores e os servidores de pesquisa/merchandising do site é totalmente contínua e invisível para os clientes. Se você não souber HTML ou se não tiver tempo para criar um modelo personalizado, poderá escolher entre uma variedade de modelos atraentes e prontos para uso que a equipe interna de desenvolvedores da Web profissionais do Adobe cria.

Posso ver quais clientes estão procurando no meu site?

Sim. Mantemos as estatísticas de pesquisa para pesquisas feitas por visitantes em seu site nos últimos dois meses. Você pode revisar essas estatísticas a qualquer momento em Relatórios no menu do produto. Os relatórios de pesquisa fornecem informações vitais sobre exatamente o que os visitantes estão procurando em seu site. Você pode usar essas informações para melhorar o design ou ajustar o mecanismo de pesquisa/comercialização do site para melhor servir aos visitantes.

Como posso controlar quais tipos de conteúdo (PDF, texto, Flash, MP3 e Microsoft Office) são indexados e pesquisados?

Você pode configurar facilmente contas para ativar ou desativar a indexação e a pesquisa de texto encontrado em documentos PDF, documentos de texto simples, filmes em Flash, arquivos MP3 ou documentos do Microsoft Office.

Essas configurações são controladas na página Staged Content Types.

Consulte Sobre tipos de conteúdo.

As páginas da Web geradas dinamicamente por meio de conteúdo baseado em ASP, JSP, PHP, CFM ou Perl são compatíveis?

As páginas da Web HTML estáticas ou geradas dinamicamente são indexadas, incluindo páginas criadas a partir de bancos de dados ou qualquer outro processo de back-end. Como o código HTML que um navegador vê é indexado, você pode usar pesquisa/merchandising de site em sites, desde que essas arquiteturas de back-end resultem em páginas HTML.

O robô de pesquisa rastreia seu site começando pela primeira página no endereço do site especificado em Account Settings e segue os links de página em página.

Consulte Definição das configurações da sua conta.

Quando o robô de pesquisa rastreia e indexa todas as páginas do site, você pode usar o mecanismo de pesquisa para pesquisar no site. Em outras palavras, se documentos gerados dinamicamente forem inseridos no site com links de outras páginas, o robô de pesquisa ainda poderá rastrear e indexar o conteúdo dinâmico.

Depois que o conteúdo de seu site é rastreado e indexado, os clientes de seu site podem pesquisar informações dentro do conteúdo indexado.

Como posso usar sinônimos para melhorar os resultados da pesquisa do meu site?

Você pode usar sinônimos quando quiser que os visitantes encontrem páginas relacionadas à consulta de pesquisa.

Por exemplo, suponha que você tenha uma página que contenha uma lista de preços de produtos para venda em seu site. No entanto, após examinar os relatórios de pesquisa fornecidos pela pesquisa/comercialização do site, você descobrirá que os clientes estão procurando a palavra "custo", "despesa", "encargo" ou "taxa" em suas pesquisas. Essas palavras não exibem sua página de lista de preços nos resultados da pesquisa. Com o recurso Add Synonyms em Dictionaries, você pode especificar que essas palavras sejam sinônimos, e seu cliente pode encontrar sua lista de preços, independentemente do termo de pesquisa que usar.

Consulte Sobre dicionários.

Tenho controle sobre a ordem dos resultados da pesquisa?

Sim. Usando a interface de relevância avançada, você pode controlar quais páginas são retornadas para uma consulta de pesquisa específica. Esse recurso é útil se você quiser ter certeza de que os clientes verão uma página específica quando pesquisarem determinadas palavras.

Consulte Adicionar um novo campo de metatag.

Posso alterar o idioma da página de resultados da pesquisa?

Sim. O modelo de pesquisa/merchandising do site é flexível quando se trata de permitir que você construa uma página de resultados que usa o idioma de sua escolha e corresponde à aparência do site.

O modelo consiste em uma combinação de texto, tags HTML padrão e tags especiais definidas para exibir os resultados da pesquisa. Quando um cliente realiza uma pesquisa, o robô de pesquisa lê o modelo, gera o texto usando tags HTML padrão e insere os links de resultados com base nas tags de modelo especiais.

Consulte Pesquisar marcas de modelo.

Se quiser alterar o idioma dos resultados, edite o texto em inglês exibido no modelo.

Consulte Edição de uma apresentação ou de um modelo de transporte.

Posso ter mais de um site no meu login de cliente do Adobe?

Sim. Com um único Adobe Customer Login, você pode gerenciar um mecanismo de pesquisa diferente para vários sites diferentes. Selecione e gerencie contas em "Contas".

Consulte Selecionar uma conta diferente para usar.

Posso pesquisar mais de um domínio?

Sim. Você pode configurar o acesso a mais de um domínio usando URL Entrypoints. Forneça pontos de entrada de URL para domínios adicionais de sua propriedade. Lembre-se de que você deve ter permissão para indexar domínios que não são de sua propriedade.

Consulte Sobre pontos de entrada de URL.

Posso subdividir meu site em seções separadas para que os clientes possam pesquisar qualquer uma dessas áreas individualmente ou em todo o site?

Sim. Um recurso "Coleções" é incluído e permite que os clientes pesquisem áreas específicas de seu site para encontrar rapidamente o que estão procurando.

Consulte Sobre Coleções.

Por exemplo, os clientes podem pesquisar uma coleção de URLs relacionadas às informações de vendas do produto ou uma coleção de URLs relacionadas aos serviços de suporte. Você pode configurar coleções para que seus clientes vejam uma lista suspensa de coleções ou um grupo de caixas de seleção.

Como posso excluir partes do meu site de serem pesquisadas?

Sim. Especifique as máscaras de URL para determinar quais páginas de site deseja incluir ou excluir da indexação. As máscaras de URL determinam se as páginas do site aparecem nos resultados da pesquisa.

Consulte Sobre máscaras de URL.

Consulte Sobre o script de máscaras de URL.

Para evitar que partes de páginas individuais da Web sejam pesquisadas, você pode excluir partes de uma página da indexação. Marque o texto com as tags <noindex> e </noindex> . Esse método é útil se você deseja excluir o texto de navegação das pesquisas.

Quais conjuntos de caracteres são compatíveis?

As páginas da Web normalmente especificam o conjunto de caracteres com uma meta tag semelhante ao seguinte:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">

O mecanismo de pesquisa/merchandising do site indexa apropriadamente as páginas da Web usando todos os conjuntos de caracteres comuns em uso na Internet hoje. Alguns dos conjuntos de caracteres suportados incluem o seguinte:

Árabe (ISO-8859-6)

Chinês (Tradicional) Big5)

Japonês (Shift_JIS)

Árabe (Windows-1256)

Chinês (Tradicional) EUC-TW)

Russo (KOI8-R)

Báltico (ISO-8859-4)

Cirílico (ISO-8859-5)

Sul da Europa (ISO-8859-3)

Báltico (Windows-1257)

Cirílico (Windows-1251)

Turco (ISO-8859-9)

Europa Central (ISO-8859-2)

Grego (ISO-8859-7)

Turco (Windows-1254)

Europa Central (Windows-1250)

Grego (Windows-1253)

Unicode (UTF-8)

Chinês (ISO-2022-CN)

Hebraico (ISO-8859-8)

US-ASCII (us-ascii)

Chinês (ISO-2022-CN-EXT)

Hebraico (Windows-1255)

Europa Ocidental (ISO-8859-1)

Chinês (Simplificado; EUC-CN)

Japonês (EUC-JP)

Europa Ocidental (ISO-8859-15)

Chinês (Simplificado; (GB2312)

Japonês (ISO-2022-JP)

Europa Ocidental (Windows-1252)

Chinês (Simplificado; GBK)

Japonês (ISO-2022-JP-1)

Europeu Ocidental (x-mac-roman)

Chinês (Simplificado; (HZ-GB-2312)

Japonês (ISO-2022-JP-2)

Entre em contato com o Suporte Técnico para saber sobre conjuntos de caracteres que não estão listados acima.

E se eu alterar ou atualizar meu site?

Após alterar o conteúdo do seu site, é possível executar um índice completo ou um índice incremental. A pesquisa/merchandising do site baixa e indexa qualquer conteúdo de site alterado. Após a conclusão da indexação, seus clientes podem pesquisar o novo conteúdo. Você também pode agendar uma indexação automática do site em um determinado momento e em um dia específico.

Consulte Executar um índice completo de um site ativo ou temporário….

Consulte Executar um índice incremental de um site ativo ou temporário….

Consulte Definir o agendamento de índice completo para um site ativo.

Consulte Definindo o agendamento de índice incremental para um site ativo.

Meu site pode ser indexado automaticamente?

Sim. Você pode agendar um índice automático de seu site todos os dias.

Além da indexação automática diária, você pode optar por alterar partes de seu site com frequência indexadas de forma incremental. Nos dias em que um índice automático é agendado, é possível controlar a hora do dia em que o índice ocorre. Além disso, você sempre pode iniciar manualmente um índice de site sempre que desejar.

Consulte Definir o agendamento de índice completo para um site ativo.

Consulte Definindo o agendamento de índice incremental para um site ativo.

Eu uso senhas no meu site. Ainda posso usar a pesquisa/comercialização do site?

Se você usar a Autenticação Básica HTTP para proteger por senha determinadas partes do seu site, poderá especificar realms e senhas que a pesquisa/comercialização do site pode usar para indexar seu site.

Consulte Adicionar senhas para acessar áreas do site que exigem….

Você suporta o rastreamento e a indexação de https ou conteúdo de servidor seguro?

Sim. Você pode rastrear e indexar conteúdo em servidores seguros (https).

A pesquisa/comercialização do site honra o arquivo robots.txt no meu site?

Sim. O Robots Exclusion Protocol está em conformidade. O robô de pesquisa examina o arquivo robots.txt se ele estiver presente no seu site. Se o arquivo robots.txt excluir todos os robôs do rastreamento do seu site, o robô de pesquisa/comercialização do site também será excluído. Para permitir que somente o robô de pesquisa/comercialização do site rastreie seu site, defina o conteúdo do arquivo robots.txt como segue:

User-agent: Atomz/1.0 
Disallow:
User-agent: * 
Disallow: /

Saiba mais sobre os robôs da Web e o Protocolo de exclusão de robôs no link a seguir:

https://www.robotstxt.org/orig.html

Determinadas partes do meu site devem ser atualizadas com frequência para que meus clientes obtenham os resultados de pesquisa mais precisos. A indexação incremental ajuda com esse problema?

Sim. Esse cenário é o que o recurso de indexação incremental foi criado para facilitar a pesquisa/comercialização do site. O principal benefício da indexação incremental é que ela permite que as empresas indexem com frequência partes do seu site que mudam dinamicamente. Essa funcionalidade garante que você esteja exibindo os resultados da pesquisa com precisão de "até o minuto".

Consulte Executar um índice incremental de um site ativo ou temporário….

Consulte Definindo o agendamento de índice incremental para um site ativo.

As páginas da Web geradas dinamicamente são compatíveis com um banco de dados back-end, como catálogos de produtos ou sistemas de gerenciamento de inventário?

Páginas da Web HTML estáticas ou geradas dinamicamente, incluindo páginas criadas a partir de bancos de dados ou qualquer outro processo de back-end são indexadas. Como o código HTML, conforme visualizado por um navegador, é indexado, você pode usar pesquisa/merchandising de site em sites, desde que as informações de banco de dados de back-end resultem em páginas HTML.

O robô de pesquisa rastreia seu site começando pela primeira página no endereço do site especificado em Account Settings e segue os links de página em página.

Consulte Definição das configurações da sua conta.

Quando o robô de pesquisa rastreia e indexa todas as páginas do site, você pode usar o mecanismo de pesquisa para pesquisar no site. Em outras palavras, se documentos gerados dinamicamente forem inseridos no site com links de outras páginas, o robô de pesquisa ainda poderá rastrear e indexar o conteúdo do banco de dados dinâmico.

Depois que o conteúdo de seu site é rastreado e indexado, os clientes de seu site podem pesquisar informações dentro do conteúdo indexado.

Você pode facilmente habilitar a pesquisa de conteúdo completo ou uma pesquisa baseada em tópicos mais restrita, restrita às informações no título, na meta descrição ou nas metapalavras-chave nas tags do documento, ou todas as três. Usando definições de metadados, também é possível criar campos de exibição personalizados, como uma imagem de produto, nos resultados da pesquisa real.

Consulte Adicionar um novo campo de metatag.

Posso usar scripts ou programas para iniciar um índice incremental do meu site?

Sim. Você pode usar scripts ou programas para iniciar um índice incremental de seu site, bem como fazer ping nos servidores para indexar o site sempre que o conteúdo for alterado ou atualizado.

Consulte Sobre o Índice com script.

Implementações de recursos

Uma página de perguntas frequentes que discute várias implementações de recursos em Search&Promote.

As perguntas a seguir são comuns sobre implementações de recursos em Search&Promote em um site:

Por que minhas regras de negócios não estão funcionando?

Configure regras de negócios quando os banners forem exibidos ou para ajudar a decidir quais resultados serão exibidos e em que ordem. Você também pode configurar a posição de um item em sua faceta e qual modelo é usado para determinada pesquisa.
Reordenar regras de negócios para alterar a ordem em que são executadas nos modelos de apresentação. As regras de negócios são executadas na ordem em que foram definidas; ou seja, quanto maior for o número de pedido de uma regra, mais tarde ela será executada no processo, superando as regras anteriores. Você reorganiza as regras inserindo um novo número na coluna Ordem da tabela na página Regras de negócios .

Consulte Sobre as Regras de Negócios.

Por que tenho problemas ao agendar a indexação, erros ao iniciar a indexação e problemas ao iniciar a indexação preparada?

Ao gerar um índice, seja ele completo ou incremental, as informações de status do rastreamento de índice são exibidas em tempo real. Por exemplo, você pode visualizar o tempo de início, o tempo decorrido e quaisquer erros que ocorreram durante o processo de indexação. As informações sobre o status do último índice também são exibidas. Use essas informações para solucionar problemas de erros de indexação encontrados.

Para agendar um índice, consulte Definindo o agendamento de índice completo para um site ativo e Definindo o agendamento de índice incremental para um site ativo.

Para iniciar um índice de preparo, consulte Executar um índice completo de um site ativo ou temporário… ou Executar um índice incremental de um site ativo ou temporário….

Meu limite de tamanho de índice excede meu limite permitido. Por que isso está acontecendo e como posso corrigi-lo?

Um site pode ter tendência a crescer e, com o tempo, o Search & Promote "descobre" mais documentos e páginas da Web que foram adicionadas. Eventualmente, sua conta pode exceder o limite de tamanho de indexação. Nesses casos, você pode considerar usar URL Mask. Esse recurso oculta documentos e páginas da Web do rastreamento de índice que você não deseja ou não precisa que tenha indexado, reduzindo assim o tamanho do índice. Outra opção pode ser entrar em contato com o Suporte Técnico para que seu limite de tamanho de indexação fique maior em sua conta.

Consulte Sobre máscaras de URL.

Se não tiver certeza sobre o que fazer, entre em contato com o Suporte Técnico. Pode haver muitas outras variáveis afetando o tamanho do seu índice que, se ajustadas, também podem afetar o faturamento da sua conta.

Internacional

Uma página de perguntas frequentes que discute o suporte à indexação e pesquisa de mais de 19 idiomas, incluindo idiomas asiáticos multibytes, como chinês (simplificado e tradicional), japonês e coreano.

Veja a seguir perguntas comuns sobre idiomas e conjuntos de caracteres:

O que controla a codificação do conjunto de caracteres da consulta de pesquisa?

A seção "Formulários Web" da sua conta de Pesquisa contém formulários de pesquisa de amostra que você usa para adicionar funcionalidade de pesquisa ao seu site. Se você procurar esse código de formulários de pesquisa, poderá encontrar uma linha semelhante ao seguinte:

<input type=hidden name="sp_f" value="iso-8859-1">

Essa linha de código informa ao mecanismo de pesquisa que a consulta recebida é codificada em iso-8859-1, uma codificação comum para idiomas da Europa Ocidental. Você pode alterar essa configuração indo para o menu do produto e clicando em Settings > My Profile > Personal Information. Na página Personal Information , na lista suspensa Character Encoding, selecione uma nova codificação.

Consulte Configurar as informações pessoais do usuário.

Também é possível alterar manualmente o valor de codificação nas páginas da Web editando a linha sp_f do formulário de pesquisa. Lembre-se de que o valor sp_f do formulário de pesquisa deve corresponder à codificação do conjunto de caracteres da página em que ele é exibido.

São pesquisadas apenas as páginas cuja codificação corresponde à codificação da consulta de pesquisa?

Por padrão, não. Desde que as páginas do site identifiquem corretamente a codificação do conjunto de caracteres, as conversões necessárias são feitas entre a codificação da consulta de pesquisa e a das páginas, mesmo quando as páginas usam várias codificações.

Qual codificação é usada para a página de resultados da pesquisa?

A codificação do conjunto de caracteres da sua conta determina a codificação padrão do modelo de resultados.

Consulte Configurar as informações pessoais do usuário.

Você pode saber mais sobre como especificar um conjunto de caracteres em um modelo HTML.

Consulte Pesquisar marcas de modelo.

Posso usar pesquisa/merchandising de site em páginas codificadas em Unicode, UTF-8 e Unicode?

Sim. No entanto, os conjuntos de caracteres Unicode, como UTF-8, não fornecem informações suficientes para determinar o idioma em que as páginas são gravadas. Para pesquisar corretamente essas páginas, é necessário especificar o idioma. Para determinar o idioma do documento, as informações são processadas na seguinte ordem:

  • Cabeçalho HTTP de linguagem de conteúdo entregue ao documento pelo seu servidor.

  • Elementos META (por exemplo, META HTTP-EQUIV="Content-Language" Content="ja_JP") na seção <HEAD> do documento.

  • Atributo LANG da tag <HTML> (por exemplo, <HTML LANG="ja_JP">).

Se o servidor não estiver configurado para fornecer o cabeçalho HTTP de linguagem de conteúdo e os documentos não contiverem o elemento META de idioma nem o atributo de idioma para a tag <HTML> , você poderá usar injeções de metadados para especificar o idioma apropriado.

Consulte Adicionar definições de injeção de campo.

Por que não posso pesquisar os arquivos PDF em chinês, japonês ou coreano no meu site?

Comercialização/pesquisa de site obtém UTF-8 de arquivos Adobe PDF sem indicação de idioma. Se você selecionou PDF Documents ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o idioma usado no arquivo PDF.

Consulte Adicionar definições de injeção de campo.

Por que não posso pesquisar os arquivos SWF chineses, japoneses ou coreanos no meu site?

Comercialização/pesquisa de site obtém UTF-8 de arquivos de filme de Flash Adobe que foram criados com Flash Adobe sem indicação de idioma. Se você selecionou o tipo de conteúdo Adobe Flash Movies ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o idioma usado no arquivo SWF.

Para Flash versão 4 ou versões mais antigas de arquivos SWF, o conjunto de caracteres no arquivo não é especificado. Se você selecionou o tipo de conteúdo Adobe Flash Movies ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o conjunto de caracteres usado no arquivo SWF.

Consulte Adicionar definições de injeção de campo.

Por que não posso pesquisar os arquivos do Microsoft Office em chinês, japonês ou coreano no meu site?

A pesquisa/comercialização do site obtém UTF-8 de arquivos do Microsoft Office (Microsoft Word, Microsoft Excel e Microsoft PowerPoint) sem indicação de idioma. Se você selecionou o tipo de conteúdo Microsoft Office Files ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o idioma usado nos arquivos do Microsoft Office.

Consulte Adicionar definições de injeção de campo.

Por que não posso pesquisar os arquivos MP3 chineses, japoneses ou coreanos no meu site?

Se você selecionar o tipo de conteúdo Text in MP3 Music Files ( Settings > Crawling > Content Types), deverá usar injeções de metadados para especificar o conjunto de caracteres usado para codificar os arquivos MP3.

Consulte Adicionar definições de injeção de campo.

Preciso fazer algo especial para fazer com que os arquivos .txt no meu site indexem corretamente?

Se você selecionou o tipo de conteúdo Text Documents ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o conjunto de caracteres usado para codificar os arquivos .txt.

Consulte Adicionar definições de injeção de campo.

Por que as fontes chinesas, japonesas ou coreanas aparecem nos resultados da pesquisa no Netscape 4.7 e anterior?

Se sua conta usa o modelo padrão, um dos modelos prontos para uso ou um modelo com base em qualquer um desses modelos, ele pode conter tags de fonte que especificam Arial ou Helvetica como faces de fonte. Por exemplo, <font face="arial, helvetica" size="+1">. O Netscape 4.7 e anterior não exibe caracteres chineses, japoneses ou coreanos quando a fonte Arial ou Helvetica é usada. Remova o atributo face ou substitua a face da fonte por uma que seja mais apropriada para chinês, japonês ou coreano.

Contagem de página baixa

Uma página de perguntas frequentes que discute problemas comuns associados a uma baixa contagem de páginas de indexação.

Veja a seguir perguntas comuns sobre contagens baixas de páginas de indexação:

Você examinou seu log de índice?

O log de índice contém informações detalhadas que o robô de pesquisa/comercialização do site coleta ao indexar seu site. O log inclui uma lista de links rastreados e erros encontrados. Examinar o log de índice é o melhor lugar para começar a determinar por que todas as páginas do site não estão indexadas.

Consulte Visualizando o log de índice completo de um ativo ou preparado….

Consulte Visualizando o log de índice incremental de um ativo ou temporário….

Você tem erros de digitação no URL?

Ao digitar URLs longos em formulários HTML, é possível introduzir um ou mais erros tipográficos. Lembre-se de que os URLs não devem conter espaços. Além disso, esteja ciente de que alguns servidores da Web lidam com URLs que diferenciam maiúsculas e minúsculas.

No menu do produto, clique em Settings > Crawling > URL Entrypoints. Na página Staged URL Entrypoints, verifique o seguinte:

  • Você não tem erros tipográficos em seus URLs.
  • Os caracteres nos URLs estão usando a capitalização correta.
  • Não há caracteres de espaço nos URLs.

Para testar seus pontos de entrada do URL, copie e cole um URL em um navegador da Web para ver se seu site aparece. Se não for exibido, verifique novamente para garantir que você não cometeu erros no caminho do URL.

Consulte Sobre pontos de entrada de URL.

A página da Web do ponto de entrada tem links para outras páginas do seu site?

O robô de pesquisa/comercialização do site rastreia seu site da mesma forma que o cliente faz; seguindo os links de página para página. Os links devem estar presentes na página da Web do ponto de entrada antes que o robô de pesquisa possa localizar e indexar outras páginas do site.

Consulte Adicionar vários pontos de entrada de URL que você deseja indexar.

Os links para outras páginas do seu site estão incorporados ao JavaScript?

Você pode usar técnicas sofisticadas de navegação no seu site, como ações de roll-over e menus, que usam o JavaScript para vincular a outras páginas. No entanto, o robô de pesquisa/comercialização do site não pode seguir os links incorporados no JavaScript.

Uma solução que você pode usar para superar esse problema é colocar links ocultos para outras páginas no HTML que contém o JavaScript. Embora os clientes do seu site não vejam esses links, o robô de pesquisa ainda os encontra e rastreia. Você pode colocar tags ocultas na parte inferior da página antes da tag </body> . Eles podem se parecer com o seguinte:

<a href="/mydir/mypag1.html?lang=pt-BR"></a> 
<a href="/mydir/mypag2.html?lang=pt-BR"></a>

Outra solução é listar os URLs das páginas adicionais no seu site como pontos de entrada para rastrear e indexar. Inicie os URLs com https:// como mostrado no seguinte:

https://www.mydomain.com/mydir/mypag1.html 
https://www.mydomain.com/mydir/mypag2.html

Consulte Adicionar vários pontos de entrada de URL que você deseja indexar.

As tags HTML na sua página da Web estão em uma sequência inválida?

A especificação HTML requer que as tags <html>, <head> e <body> sigam uma sequência específica em um documento HTML. As tags em todas as páginas da Web devem ter a seguinte sequência:

<html> 
<head> 
...  
<i>head tags go here</i> ... 
</head> 
<body> 
...  
<i>body tags go here</i> ... 
</body> 
</html>

Se as tags HTML não estiverem na ordem correta, o robô de pesquisa/comercialização do site não poderá analisar e indexar corretamente sua página da Web. Este é um exemplo de tags que não estão na sequência correta:

<body> 
<head> 
...  
<i>head tags are here</i> ... 
</head> 
...  
<i>body tags are here</i> ... 
</body>

Nesse caso, coloque as tags <html>, <head> e <body> na sequência apropriada na página da Web.

Você formou tags de comentário HTML incorretamente em sua página da Web?

Certifique-se de revisar e corrigir cuidadosamente todos os comentários HTML inválidos em suas páginas da Web.

A especificação HTML requer que um comentário HTML comece com os caracteres <!-- e termine com os caracteres -->. É fácil ignorar comentários formatados incorretamente que fazem com que o robô de pesquisa/comercialização do site analise incorretamente as tags em sua página da Web. Um comentário incorretamente formado pode fazer com que o robô de pesquisa/comercialização do site perca outras tags importantes que devem ser analisadas. Lembre-se dos comentários antes da tag <body> na sua página da Web.

Este é um exemplo de um comentário devidamente formado:

<!-- This HTML comment is OK. -->

Veja a seguir um exemplo de um comentário mal formado:

<!- This HTML comment is improperly formed. -> 
<! This HTML comment is also improperly formed. >

Sua página da Web contém links para páginas em outro domínio?

Geralmente, um site pode consistir em páginas que realmente existem em um servidor da Web com um endereço de domínio diferente. Por exemplo, se o endereço do site principal for o seguinte:

https://www.mydomain.com/

Seu site também pode ter páginas em outro domínio, como o seguinte:

https://www.otherdomain.com/

Por padrão, o robô de pesquisa/comercialização do site não segue links em um domínio diferente do principal. No entanto, ao definir pontos de entrada adicionais para sua conta de pesquisa, é possível indexar vários domínios facilmente.

No menu do produto, clique em Settings > Crawling > URL Entrypoints. Adicione o URL do "ponto de entrada do site principal" de seu site. Em seguida, adicione pontos de entrada de URL adicionais a qualquer outro domínio que contenha páginas do site. Por exemplo, você define o ponto de entrada principal do URL como:

https://www.mydomain.com/

e adicione o seguinte ponto de entrada adicional do URL do site:

https://www.otherdomain.com/

Você está usando um serviço de domínio virtual para o URL?

Você pode estar usando um serviço de domínio virtual (às vezes chamado de "serviço de redirecionamento de domínio") para fornecer um URL melhor para os clientes chegarem ao seu site. Por exemplo, suponha que o endereço real de seu site seja o seguinte:

https://www.myispdomain.com/~myname/mywebpages/

No entanto, você usa um serviço de domínio virtual para que os clientes possam acessar seu site nos seguintes endereços:

https://myname.adomain.com/

ou

https://adomain.com/myname/

Por padrão, o robô de pesquisa/comercialização do site não segue links em um domínio diferente do principal. No entanto, ao definir pontos de entrada adicionais para sua conta de pesquisa, é possível indexar vários domínios facilmente.

No menu do produto, clique em Settings > Crawling > URL Entrypoints. Adicione o "ponto de entrada do URL do site principal" ao nome de domínio virtual do site. Em seguida, adicione pontos de entrada adicionais ao domínio em que seu site realmente reside.

Por exemplo, você define o ponto de entrada principal do URL como segue:

https://myname.adomain.com/

E adicione o seguinte ponto de entrada adicional do URL do site:

https://www.myispdomain.com/~myname/mywebpages/

Sua página da Web usa uma tag de atualização da meta?

Muitos sites têm uma página inicial que inclui uma tag de atualização meta entre as tags <head>...</head> semelhantes ao seguinte:

<meta http-equiv="Refresh" content="0;URL=https://www.adomain.com/apath/afile.html">

Em determinadas circunstâncias, o robô de pesquisa/comercialização do site não pode seguir o URL de atualização meta para indexar o conteúdo do site. Esse problema é fácil de resolver ao configurar pontos de entrada adicionais.

No menu do produto, clique em Settings > Rastreamento > URL Entrypoints. Adicione outro ponto de entrada ao URL da tag de atualização da meta.

Sua página da Web usa uma tag meta robots?

Às vezes, as páginas da Web usam metrobots tags para controlar os robôs da Web que periodicamente tentam rastrear um site. As tags de meta-robôs são exibidas entre as tags <head>...</head> de uma página da Web e são semelhantes à seguinte tag:

<meta name="robots" content="noindex, nofollow">

Como o robô de pesquisa/comercialização do site é em si um robô da web, ele segue as orientações da meta-robôs tag. Ao excluir outros robôs dessa maneira, você também exclui o robô de pesquisa/comercialização do site.

Saiba mais sobre os robôs da Web e o Protocolo de exclusão de robôs no link a seguir:

https://www.robotstxt.org/orig.html

Remova ou modifique a tag meta-robôs nas páginas da Web que você deseja indexar em seu site.

Seu site usa um arquivo de exclusão de robôs?

Às vezes, um site tem uma página chamada robots.txt que exclui todos ou alguns robôs de rastreá-lo. Para ver se o seu site tem um arquivo robots.txt, procure-o logo abaixo do domínio de nível superior, como mostrado no seguinte:

https://www.yourdomain.com/robots.txt

O conteúdo do arquivo robots.txt é semelhante ao seguinte texto:

User-agent: * 
Disallow: /

Como o robô de pesquisa/comercialização do site é em si um robô da web, ele segue as orientações no arquivo robots.txt, excluindo o robô de pesquisa/comercialização do site. Para contornar esse problema, edite o arquivo de exclusão de robôs (robots.txt) para permitir que o robô de pesquisa/comercialização do site rastreie e indexe seu site da seguinte maneira:

User-agent: Atomz/1.0 
Disallow: 
 
User-agent: * 
Disallow: /

Microsoft Office

Uma página de perguntas frequentes que discute o suporte à indexação e pesquisa de arquivos do Microsoft® Office em um site.

Veja a seguir perguntas comuns sobre arquivos do Microsoft Office:

O que é indexado em um arquivo do Microsoft Office?

O conteúdo completo dos arquivos do Microsoft Word, do Microsoft Excel e do Microsoft PowerPoint é indexado.

As seguintes partes de um arquivo do Microsoft Word são indexadas:

  • Título
  • Palavras-chave
  • Assunto (Descrição)
  • Conteúdo baseado em texto
  • Hiperlinks para outros documentos

As seguintes partes de um arquivo do Microsoft Excel são indexadas:

  • Título
  • Palavras-chave
  • Assunto (Descrição)
  • Texto em células
  • Valores de fórmulas numéricas em células

As seguintes partes de um arquivo do Microsoft PowerPoint são indexadas:

  • Título
  • Palavras-chave
  • Assunto (Descrição)
  • Texto em cada slide

O que não é indexado em um arquivo do Microsoft Office?

Os gráficos contidos nos arquivos do Microsoft Office ou qualquer texto que faça parte de um gráfico contido não são indexados. As definições de propriedade personalizada não são indexadas como metadados. Alguns textos em campos especiais, como cabeçalhos e rodapés em um arquivo do PowerPoint, também não são indexados.

Como os arquivos do Microsoft Office são indexados de forma diferente das páginas HTML?

A diferença entre a forma como o robô de pesquisa indexa arquivos do Microsoft Office e arquivos HTML é que cada arquivo HTML é uma página individual e um único arquivo do Microsoft Office pode representar centenas de páginas. Por isso, cada página é contada em um arquivo do Microsoft Office como uma página separada na sua conta de pesquisa.

Como impedir que arquivos do Microsoft Office sejam indexados no meu site?

Se você não quiser que o robô de pesquisa rastreie e indexe arquivos do Microsoft Office, desmarque o tipo de conteúdo Microsoft Office Files ( Settings > Crawling > Content Types).

Você também pode usar URL Masks para desabilitar a indexação de arquivos do Microsoft Office.

Insira as seguintes máscaras de URL:

Se você não estiver usando expressões regulares

  • excluir *.doc
  • excluir *.xls
  • excluir *.ppt

Se estiver usando expressões regulares

  • exclua regexp ^.*\.doc$
  • exclua regexp ^.*\.xls$
  • exclua regexp ^.*\.ppt$

Consulte Adicionar máscaras de URL para indexar ou não partes de índice de….

Consulte Expressões regulares.

MP3

Uma página de perguntas frequentes que discute o suporte à indexação e pesquisa de arquivos de música MP3 em um site.

Veja a seguir perguntas comuns sobre arquivos MP3.

Quando um arquivo MP3 é rastreado e indexado?

Arquivos MP3 são rastreados e indexados de uma das duas maneiras. A maneira mais comum é a partir de uma tag href de âncora em um arquivo HTML:

<a href="MP3-file-URL"></a>

Uma segunda maneira é inserir o URL do arquivo MP3 como um ponto de entrada de URL.

Consulte Sobre pontos de entrada de URL.

O que preciso fazer para rastrear e indexar os arquivos MP3 no meu site?

Para ativar o rastreamento e indexação MP3 para sua conta, no menu do produto, clique em Settings > Crawling > Content Types. Na página Staged Content Types, selecione Text in MP3 Music Files.

Consulte Sobre tipos de conteúdo.

Como um arquivo MP3 é reconhecido?

Um arquivo MP3 é reconhecido por seu tipo MIME, que é "audio/mpeg".

O que é indexado em um arquivo MP3?

Como opção, os arquivos MP3 armazenam uma pequena quantidade de informações textuais. Essas informações podem incluir o nome do álbum, o nome do artista, o título da música, o gênero da música, o ano de lançamento e um comentário. Essas informações são armazenadas no final do arquivo, no que é chamado de TAG. Os arquivos MP3 que contêm informações TAG são indexados pelo da seguinte maneira:

  • O título da música é tratado como o título de uma página HTML.
  • O comentário é tratado como uma descrição definida para uma página HTML.
  • O gênero é tratado como uma palavra-chave definida para uma página HTML.
  • O nome do artista, o nome do álbum e o ano de lançamento são tratados como o corpo de um documento HTML.

Um arquivo MP3 conta como uma página?

Sim, cada arquivo MP3 rastreado e indexado no seu site é contado como uma página.

Como impedir a indexação de arquivos MP3 individuais?

Marque as tags de âncora vinculadas aos arquivos MP3 com as tags <nofollow> e </nofollow> . O robô de pesquisa não segue os links entre essas tags.

Outro método é adicionar os URLs dos arquivos MP3 como máscaras de exclusão.

Consulte Sobre máscaras de URL.

Consulte Sobre o script de máscaras de URL.

Como impedir que arquivos MP3 sejam indexados?

A maneira mais fácil de controlar a indexação MP3 para sua conta é desmarcando Text in MP3 Music Files na página Staged Content Types.

Consulte Selecionar tipos de conteúdo para rastrear e indexar.

Você também pode usar o recurso Máscaras de URL para desativar a indexação MP3 por extensão de arquivo. Para fazer isso, no menu do produto, clique em Settings > Crawling > URL Masks. Insira uma das seguintes máscaras:

Se sua conta...

Insira a seguinte máscara de URL

Não usa expressões regulares

excluir *.mp3

Usa expressões regulares

exclua regexp ^.*\.mp3$

Consulte Expressões regulares.

Por que não posso pesquisar os arquivos MP3 chineses, japoneses ou coreanos no meu site?

Para pesquisar arquivos MP3 chineses, japoneses ou coreanos, no menu do produto, clique em Settings > Crawling > Content Types > Text in MP3 Music Files. Em seguida, clique em Settings > Metadata > Injections e especifique o conjunto de caracteres usado para codificar os arquivos MP3.

Consulte Selecionar tipos de conteúdo para rastrear e indexar.

Consulte Sobre Injeções.

PDF

Uma página de perguntas frequentes que discute o suporte à indexação e pesquisa de arquivos PDF em um site.

Veja a seguir perguntas comuns sobre arquivos PDF:

O que é indexado em um arquivo PDF?

O conteúdo completo dos arquivos PDF é indexado. As seguintes partes de um arquivo PDF são indexadas:

  • Título
  • Palavras-chave
  • Assunto (Descrição)
  • Conteúdo baseado em texto

O que não é indexado em um arquivo PDF?

O índice do PDF, qualquer gráfico do arquivo ou qualquer texto que faça parte de um gráfico contido não são indexados.

Como os arquivos PDF indexados são contados?

Cada arquivo PDF é contado, incluindo PDFs que contêm várias páginas, como um único documento.

Os resultados da pesquisa podem exibir um ícone PDF?

Sim. Use a tag <search-if-link-extension> em seu modelo para incluir um ícone PDF ou outros gráficos ou texto nos resultados da pesquisa:

<search-results> 
  ... 
  <search-if-link-extension value=".pdf"> 
    <img src="/search/i/pdficon.gif?lang=pt-BR"> 
  </search-if-link-extension> 
  ... 
</search-results>

Ícones de PDF ajudam seus clientes a saber que um resultado de pesquisa vincula a um arquivo PDF que pode ser muito grande. O tamanho do arquivo pode ser importante para os clientes que estão acessando seu site por um modem ou em um dispositivo móvel.

Os resultados da pesquisa podem se vincular a uma determinada página em um arquivo PDF?

Sim. Usando a tag do modelo de links inteligentes ( <search-smart-link>...</search-smart-link>), os clientes podem clicar para abrir a primeira página PDF que contém o resultado da pesquisa.

Para usar links inteligentes, substitua as tags <search-link>...</search-link> na seção de resultados da pesquisa do modelo por tags <search-smart-link>...</search-smart-link> . Quando um cliente clica em um link gerado pelas tags de link inteligente, ele vai para a primeira página PDF relevante para a consulta de pesquisa.

OBSERVAÇÃO

Para usar esse recurso, o cliente deve usar uma versão recente do Adobe Acrobat ou do Adobe Acrobat Reader, que deve incluir o plug-in de realce e o plug-in External Window Handler (EWH) . Além disso, o navegador da Web deles deve usar o plug-in Adobe Acrobat para o Netscape Navigator (você pode usar qualquer navegador que aceite esse plug-in do Netscape Navigator) ou o controle Acrobat AtiveX para o Internet Explorer 4.0 e posterior.

Consulte Pesquisar marcas de modelo.

Como impedir que arquivos PDF sejam indexados no meu site?

Se você não quiser que o robô de pesquisa rastreie e indexe arquivos PDF, desmarque o tipo de conteúdo PDF Documents ( Settings > Crawling > Content Types).

Você também pode optar por usar URL Masks para desativar a indexação de PDF.

Consulte Adicionar máscaras de URL para indexar ou não partes de índice de….

Para desativar a indexação de PDF, insira uma das seguintes máscaras de URL:

  • exclude *.pdf (se você não estiver usando expressões regulares)
  • exclude regexp ^.*\.pdf$ (se estiver usando expressões regulares)

Consulte Expressões regulares.

Por que não posso pesquisar os arquivos PDF em chinês, japonês ou coreano no meu site?

Comercialização/pesquisa de site obtém UTF-8 de arquivos PDF sem indicação de idioma. Se você selecionou o tipo de conteúdo PDF Documents ( Settings > Crawling > Content Types), deve usar injeções de metadados para especificar o idioma usado no arquivo PDF.

Consulte Adicionar definições de injeção de campo.

Muitas páginas

Uma página de perguntas frequentes que explica alguns dos motivos pelos quais o indexador contou mais páginas do que você realmente contou e qual é a solução em cada caso.

Se você tiver certeza de que seu site está abaixo do limite de sua página, mas o indexador informa que o limite foi atingido, você deve revisar essas perguntas e respostas comuns para possíveis soluções.

Você examinou seus vários logs de índice?

O log de índice contém informações detalhadas coletadas pelo robô de pesquisa/comercialização do site, pois indexa seu site. O log inclui uma lista de todos os links rastreados e encontrou erros. Examinar o log de índice é o melhor lugar para iniciar quando você está tentando determinar quais páginas estão sendo indexadas.

Consulte Visualizando o log de índice completo de um ativo ou preparado….

Consulte Visualizando o log de índice incremental de um ativo ou temporário….

Consulte Visualizando o log de índice incremental com script de um live ou….

Consulte Visualizando o log de índice gerado de um ativo ou preparado….

Consulte Visualização do log de índice reclassificado de um site ativo ou temporário.

Os programas CGI estão sendo indexados em seu site?

Os programas CGI usam parâmetros de URL que, às vezes, fazem com que o indexador rastreie vários URLs "falsos". Se a pesquisa/comercialização do site estiver lendo seus programas de CGI e seguindo URLs com parâmetros de CGI neles, provavelmente existem vários múltiplos de páginas sendo rastreadas e indexadas que não são úteis para seu índice de pesquisa. Parâmetros CGI típicos aparecem em URLs com caracteres ? ou &.

É possível mascarar os programas CGI de serem indexados usando o recurso Máscaras de URL. Você pode mascarar um prefixo de URL ou usar expressões regulares para mascarar seus scripts CGI.

Consulte Sobre máscaras de URL.

Consulte Sobre o script de máscaras de URL.

Consulte Expressões regulares.

Seu servidor tem a navegação de diretório ativada?

Quando um servidor da Web tem a navegação de diretório ativada e não há um arquivo index.html presente em um determinado diretório, uma visita a esse diretório pode mostrar a listagem de arquivos nesse diretório. Geralmente, há links na parte superior da página para permitir que você classifique a lista de maneiras diferentes apenas clicando em Name, Last modified, Size, e assim por diante. Normalmente, eles aparecem no log de índice de pesquisa/comercialização do site como URLs com caracteres como ?M=A no final. O indexador de pesquisa/merchandising do site os segue como links, e isso pode levar à indexação de vários URLs "falsos".

Normalmente, um site bem projetado tem arquivos de índice localizados em cada diretório ou tem a navegação de diretório desativada para esses diretórios sem arquivos de índice. Felizmente, há uma maneira fácil de mascarar esses URLs "falsos" se você não conseguir alterar suas páginas ou desativar as listas de diretórios no lado do servidor.

Para realizar essa tarefa, clique em Settings > Crawling > URL Masks. Adicione uma máscara para mascarar qualquer URL que contenha o caractere ?. Você pode fazer essa tarefa inserindo a seguinte máscara de expressão regular:

exclude regexp ^.*\?.*$

Depois de criar a máscara, reindexe seu site.

Consulte Executar um índice completo de um site ativo ou temporário….

Consulte Executar um índice incremental de um site ativo ou temporário….

Há fóruns ou grupos de notícias no seu site?

Se fóruns ou grupos de notícias estiverem sendo rastreados em seu site, talvez os URLs sejam seguidos para opções de exibição diferentes ou opções de classificação. Esse comportamento significa que a mesma página é indexada várias vezes.

Normalmente, os fóruns ou grupos de notícias vêm com seus próprios mecanismos de pesquisa. Nesse caso, você pode usar URL Masks para mascarar os fóruns de pesquisa/merchandising do site.

No menu do produto, clique em Settings > Crawling > URL Masks. Na página Staged URL Masks , mascare seus fóruns inserindo seus URLs como máscaras de URL de exclusão.

Consulte Adicionar máscaras de URL para indexar ou não partes de índice de….

Depois de criar as máscaras, reindexe seu site.

Consulte Executar um índice completo de um site ativo ou temporário….

Consulte Executar um índice incremental de um site ativo ou temporário….

Há arquivos PDF ou do Microsoft Office no seu site?

Se você tiver arquivos PDF ou arquivos Microsoft Office no seu site, talvez note que o tamanho do índice de apenas alguns arquivos conta muitas páginas. O motivo pelo qual há mais páginas sendo indexadas do que documentos que você tem é porque cada página em um arquivo PDF ou Microsoft Office é contada como uma página separada.

No menu do produto, clique em Index > Full Index > Live Index. Na página Full Index , selecione Count All Pages e clique em Full Index Now para ver uma contagem total de páginas. Se não quiser arquivos PDF ou arquivos do Microsoft Office indexados, desative esse tipo de conteúdo em Settings > Crawling > Content Types.

Consulte Executar um índice completo de um site ativo ou temporário….

Consulte Sobre tipos de conteúdo.

Você tem vários pontos de entrada de URL?

O robô de pesquisa/merchandising do site começa a rastrear nos pontos de entrada do URL especificados e segue todos os links encontrados para todo o conteúdo desse domínio específico. Se você especificou muitos pontos de entrada de URL, um número significativo de páginas pode ser rastreado.

Use a tag nofollow do Robots Exclusion Protocol nos cabeçalhos dos documentos do ponto de entrada nos domínios adicionais da seguinte maneira:

<html> 
<head> 
<meta name="robots" content="nofollow"> 
</head>

O código acima informa ao robô de pesquisa/comercialização do site para indexar o conteúdo da página, mas não para seguir os links para páginas adicionais.

Saiba mais sobre os robôs da Web e o Protocolo de exclusão de robôs no link a seguir:

https://www.robotstxt.org/orig.html

Se você não tiver acesso à origem das páginas em domínios adicionais, poderá remover os vários pontos de entrada do URL. Isso o ajuda a limitar a atividade de indexação somente aos domínios cujo conteúdo você deseja que os clientes pesquisem.

Consulte Sobre pontos de entrada de URL.

Você excedeu os bytes internos ou os limites de tempo de pesquisa/comercialização do site?

Verifique se sua conta atingiu o limite na tela "Status de Índice Completo". Se o status reportar que seu índice é maior do que o permitido ou que levou mais tempo do que o permitido, seu site não é totalmente indexado. Você pode corrigir este erro para obter a cobertura adequada e a contagem de páginas do site.

Para proteger os servidores de pesquisa/merchandising do site, há limites internos de bytes e tempo. Somente quando os arquivos rastreados são muito grandes, ou quando o servidor que a pesquisa/comercialização do site está tentando alcançar está lento esses limites são atingidos.

Se você atingir um limite de tempo, verifique se o servidor está online e tente o índice novamente mais tarde. Se você atingir um limite de bytes, verifique os arquivos rastreados exibindo seu log de índice. Eles são excepcionalmente grandes? Entre em contato com o Suporte Técnico se você visualizar uma dessas mensagens.

Nesta página

Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now