Acerca del menú Rastreo

Utilice el menú Rastreo para establecer las máscaras de fecha y URL, contraseñas, tipos de contenido, conexiones, definiciones de formulario y puntos de entrada de URL.

Acerca de los puntos de entrada de URL

La mayoría de los sitios web tienen un punto de entrada o una página de inicio principal al que accede un cliente inicialmente. Este punto de entrada principal es la dirección URL desde la que el robot de búsqueda comienza a rastrear el índice. Sin embargo, si el sitio web tiene varios dominios o subdominios, o si partes del sitio no están vinculadas desde el punto de entrada principal, puede utilizar puntos de entrada de URL para agregar más puntos de entrada.

Se indexan todas las páginas del sitio web debajo de cada punto de entrada de URL especificado. Puede combinar puntos de entrada de URL con máscaras para controlar exactamente qué partes de un sitio web desea indexar. Debe volver a generar el índice del sitio web antes de que los clientes puedan ver los efectos de la configuración de puntos de entrada de URL.

El punto de entrada principal suele ser la dirección URL del sitio web que desea indexar y buscar. Puede configurar este punto de entrada principal en Configuración de cuenta.

Consulte Configuración de la cuenta.

Una vez especificado el punto de entrada de la URL principal, puede especificar, opcionalmente, puntos de entrada adicionales que desee rastrear en orden. La mayoría de las veces, especificará puntos de entrada adicionales para páginas web que no están vinculadas desde páginas bajo el punto de entrada principal. Especifique puntos de entrada adicionales cuando el sitio web abarque más de un dominio, como en el siguiente ejemplo:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

Cada punto de entrada se clasifica con una o más de las siguientes palabras clave separadas por espacio en la siguiente tabla. Estas palabras clave afectan al modo en que se indexa la página.

Importante: Asegúrese de separar una palabra clave determinada del punto de entrada y entre sí por un espacio; una coma no es un separador válido.

Palabra clave

Descripción

noindex

Si no desea indexar el texto en la página de punto de entrada, pero sí desea seguir los vínculos de la página, agregue noindex después del punto de entrada.

Separe la palabra clave del punto de entrada con un espacio, como en el siguiente ejemplo:

https://www.my-additional-domain.com/more_pages/main.html noindex

Esta palabra clave es equivalente a una metaetiqueta de robots con content="noindex" ) entre la variable <head> ... etiquetas </head> de la página de puntos de entrada.

noseguir

Si desea indexar el texto en la página de punto de entrada pero no desea seguir ninguno de los vínculos de la página, agregue nofollow después del punto de entrada.

Separe la palabra clave del punto de entrada con un espacio, como en el siguiente ejemplo:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Esta palabra clave es equivalente a una metaetiqueta de robots con content="nofollow" entre la variable <head> ... etiqueta </head> de una página de punto de entrada.

formulario

Cuando el punto de entrada es una página de inicio de sesión, form generalmente se utiliza para que el robot de búsqueda pueda enviar el formulario de inicio de sesión y recibir las cookies adecuadas antes de rastrear el sitio web. Cuando se utiliza la palabra clave "formulario", la página de punto de entrada no se indexa y el robot de búsqueda no marca la página de punto de entrada como rastreada. Uso nofollow si no desea que el robot de búsqueda siga los vínculos de la página.

Consulte también Acerca de los tipos de contenido.

Consulte también Acerca del conector de índice.

Adición de varios puntos de entrada de URL que desee indexar

Si el sitio web tiene varios dominios o subdominios y desea que se rastreen, puede utilizar puntos de entrada de URL para agregar más direcciones URL.

Para establecer el punto de entrada principal de la URL del sitio web, use Configuración de la cuenta.

Consulte Configuración de la cuenta.

Para agregar varios puntos de entrada de URL que desee indexar

  1. En el menú del producto, haga clic en Settings > Crawling > URL Entrypoints.

  2. En la página URL Entrypoints, en el campo Entrypoints, introduzca una dirección URL por línea.

  3. (Opcional) En la lista desplegable Add Index Connector Configurations, seleccione un conector de índice que desee agregar como punto de entrada para la indexación.

    La lista desplegable solo está disponible si ha añadido anteriormente una o más definiciones del conector de índice.

    Consulte Adición de una definición de conector de índice.

  4. Haga clic Save Changes.

  5. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca de las máscaras de URL

Las máscaras de URL son patrones que determinan cuál de los documentos del sitio web indexa o no los índices del robot de búsqueda.

Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

A continuación se indican dos tipos de máscaras URL que puede utilizar:

  • Incluir máscaras de URL
  • Excluir máscaras de URL

Las máscaras de URL de inclusión indican al robot de búsqueda que indexe cualquier documento que coincida con el patrón de la máscara.

Las máscaras de exclusión de URL indican al robot de búsqueda que indexe los documentos coincidentes.

A medida que el robot de búsqueda viaja de un vínculo a otro a través de su sitio web, encuentra direcciones URL y busca máscaras que coincidan con esas direcciones URL. La primera coincidencia determina si se debe incluir o excluir esa dirección URL del índice. Si ninguna máscara coincide con una dirección URL encontrada, esa dirección URL se descarta del índice.

Las máscaras de URL de inclusión para las direcciones URL de los puntos de entrada se generan automáticamente. Este comportamiento garantiza que todos los documentos encontrados en el sitio web se indiquen. También elimina convenientemente los enlaces que "dejan" tu sitio web. Por ejemplo, si una página indexada vincula a https://www.yahoo.com, el robot de búsqueda no indexa esa dirección URL porque no coincide con la máscara de inclusión generada automáticamente por la dirección URL del punto de entrada.

Cada máscara de URL que especifique debe estar en una línea independiente.

La máscara puede especificar cualquiera de las siguientes opciones:

  • Una ruta completa como en https://www.mydomain.com/products.html.

  • Una ruta parcial como en https://www.mydomain.com/products.

  • Dirección URL que utiliza comodines como en https://www.mydomain.com/*.html.

  • Expresión regular (para usuarios avanzados).

    Para que una máscara sea una expresión regular, inserte la palabra clave regexp entre el tipo de máscara ( exclude o include) y la máscara URL.

A continuación se muestra un ejemplo sencillo de máscara de URL de exclusión:

exclude https://www.mydomain.com/photos

Dado que este ejemplo es una máscara de URL de exclusión, cualquier documento que coincida con el patrón no está indexado. El patrón coincide con cualquier elemento encontrado, tanto archivos como carpetas, de modo que https://www.mydomain.com/photos.html y https://www.mydomain.com/photos/index.html, que coinciden con la dirección URL de exclusión, no se indizan. Para que coincida únicamente con los archivos de la carpeta /photos/ , la máscara de URL debe contener una barra diagonal, como en el siguiente ejemplo:

exclude https://www.mydomain.com/photos/

El siguiente ejemplo de máscara de exclusión utiliza un comodín. Indica al robot de búsqueda que pase por alto los archivos con la extensión ".pdf". El robot de búsqueda no agrega estos archivos al índice.

exclude *.pdf

A continuación se muestra una simple máscara de URL de inclusión:

include https://www.mydomain.com/news/

Solo se indexan los documentos vinculados mediante una serie de vínculos desde un punto de entrada URL o que se utilizan como puntos de entrada URL. La enumeración única de la dirección URL de un documento como una máscara de URL de inclusión no indexa un documento desvinculado. Para agregar documentos desvinculados al índice, puede utilizar la función Puntos de entrada de URL.

Consulte Acerca de los puntos de entrada de URL.

Incluir máscaras y excluir máscaras pueden funcionar juntas. Puede excluir una gran parte del sitio web de la indexación creando una máscara de URL de exclusión, pero incluyendo una o más de las páginas excluidas con una máscara de URL de inclusión. Por ejemplo, supongamos que la dirección URL del punto de entrada es la siguiente:

https://www.mydomain.com/photos/

El robot de búsqueda rastrea e indexa todas las páginas en /photos/summer/, /photos/spring/ y /photos/fall/ (suponiendo que haya vínculos a al menos una página en cada directorio desde la carpeta photos). Este comportamiento se produce porque las rutas de vínculo permiten al robot de búsqueda encontrar los documentos de las carpetas /summer/, /spring/ y /fall/, y que las direcciones URL de las carpetas coinciden con la máscara de inclusión que genera automáticamente la dirección URL del punto de entrada.

Puede elegir excluir todas las páginas de la carpeta /fall/ con una máscara de URL de exclusión como en el siguiente ejemplo:

exclude https://www.mydomain.com/photos/fall/

O bien, incluya selectivamente solo /photos/fall/redleaves4.html como parte del índice con la siguiente máscara de URL:

include https://www.mydomain.com/photos/fall/redleaves4.html

Para que los dos ejemplos de máscara anteriores funcionen según lo previsto, la máscara de inclusión se enumera primero, como en el siguiente ejemplo:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Dado que el robot de búsqueda sigue las indicaciones en el orden en que aparecen en la lista, el robot de búsqueda primero incluye /photos/fall/redleaves4.html y luego excluye el resto de los archivos de la carpeta /fall.

Si las instrucciones se especifican de la forma opuesta a la siguiente:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Luego /photos/fall/redleaves4.html no se incluye, aunque la máscara especifique que se incluye.

Una máscara de URL que aparece primero siempre tiene prioridad sobre una máscara de URL que aparece más adelante en la configuración de la máscara. Además, si el robot de búsqueda encuentra una página que coincide con una máscara de inclusión de URL y una máscara de exclusión de URL, la máscara que aparece primero siempre tiene prioridad.

Consulte Configuración de un índice incremental de un sitio web provisional.

Acerca del uso de palabras clave con máscaras de URL

Puede clasificar cada máscara de inclusión con una o más palabras clave separadas por espacio, lo que afecta a cómo se indexan las páginas coincidentes.

Una coma no es válida como separador entre la máscara y la palabra clave; solo puede utilizar espacios.

Palabra clave

Descripción

noindex

Si no desea indexar el texto en las páginas que coinciden con la máscara de dirección URL, pero desea seguir los vínculos de páginas coincidentes, agregue noindex después de la máscara de inclusión de URL. Asegúrese de separar la palabra clave de la máscara con un espacio, como en el siguiente ejemplo:

include&nbsp;*.swf&nbsp;noindex

El ejemplo anterior especifica que el robot de búsqueda sigue todos los vínculos de archivos con la variable .swf , pero deshabilita la indexación de todo el texto contenido en esos archivos.

La variable La palabra clave noindex es equivalente a una metaetiqueta de robot con content="noindex" entre la variable <head>...</head> etiquetas de páginas coincidentes.

noseguir

Si desea indexar el texto en las páginas que coinciden con la máscara de dirección URL, pero no desea seguir los vínculos de la página coincidente, agregue nofollow después de la máscara de inclusión de URL. Asegúrese de separar la palabra clave de la máscara con un espacio, como en el siguiente ejemplo:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

La variable La palabra clave nofollow es equivalente a una metaetiqueta de robot con content="nofollow" entre la variable <head>...</head> etiquetas de páginas coincidentes.

regexp

Se utiliza para incluir y excluir máscaras.

Cualquier máscara de dirección URL precedida por regexp se trata como una expresión regular. Si el robot de búsqueda encuentra documentos que coinciden con una máscara de URL de expresión regular de exclusión, esos documentos no se indexan. Si el robot de búsqueda encuentra documentos que coinciden con una máscara URL de expresión regular de inclusión, esos documentos se indexan. Por ejemplo, supongamos que tiene la siguiente máscara de dirección URL:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

El robot de búsqueda excluye los archivos coincidentes, como https://www.mydomain.com/products/page1.html

Si tenía la siguiente máscara de URL de expresión regular de exclusión:

exclude&nbsp;regexp&nbsp;^.*\?..*$

El robot de búsqueda no incluye ninguna dirección URL que contenga un parámetro CGI como https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Si tenía lo siguiente, incluir máscara de URL de expresión regular:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

El robot de búsqueda sigue todos los vínculos de archivos con la extensión ".swf". La variable La palabra clave noindex también especifica que el texto de los archivos coincidentes no está indexado.

Consulte Expresiones regulares .

Adición de máscaras de URL para indexar o no indexar partes del sitio web

Puede utilizar URL Masks para definir qué partes del sitio web desea o no desea rastrear e indexar.

Utilice el campo Probar máscaras de URL para comprobar si un documento está o no incluido después de indexar.

Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Para agregar máscaras de URL para indexar o no indexar partes del sitio web

  1. En el menú del producto, haga clic en Settings > Crawling > URL Masks.

  2. (Opcional) En la página URL Masks, en el campo Test URL Masks, introduzca una máscara de URL de prueba en el sitio web y haga clic en Test.

  3. En el campo URL Masks, escriba include (para agregar un sitio web que desee rastrear e indexar), o escriba exclude (para bloquear un sitio web y evitar que se rastree e indexe), seguido de la dirección de máscara de URL.

    Introduzca una dirección de máscara URL por línea. Ejemplo:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Haga clic Save Changes.

  5. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca de las máscaras de fechas

Puede utilizar Máscaras de fecha para incluir o excluir archivos de los resultados de búsqueda en función de la edad del archivo.

Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Las siguientes son dos tipos de máscaras de fecha que puede utilizar:

  • Incluir máscaras de fecha ("días de inclusión" y "fecha de inclusión")

    Incluir archivos de índice de máscaras de fecha con fecha anterior o anterior a la fecha especificada.

  • Excluir máscaras de fecha ("exclude-days" y "exclude-date")

    La exclusión de fechas enmascara los archivos de índice con fecha anterior o posterior a la fecha especificada.

De forma predeterminada, la fecha del archivo se determina a partir de la información de la metaetiqueta. Si no se encuentra ninguna Meta tag, la fecha de un archivo se determina a partir del encabezado HTTP que se recibe del servidor cuando el robot de búsqueda descarga un archivo.

Cada máscara de fecha que especifique debe estar en una línea independiente.

La máscara puede especificar cualquiera de las siguientes opciones:

  • Una ruta completa como en https://www.mydomain.com/products.html
  • Una ruta parcial como en https://www.mydomain.com/products
  • Una dirección URL que utiliza comodines https://www.mydomain.com/*.html
  • Expresión regular. Para que una máscara sea una expresión regular, inserte la palabra clave regexp antes de la dirección URL.

Las máscaras de fechas de inclusión y exclusión pueden especificar una fecha de una de las dos maneras siguientes. Las máscaras solo se aplican si los archivos coincidentes se crearon en la fecha especificada o antes de esta:

  1. Un número de días. Por ejemplo, supongamos que la máscara de fecha es la siguiente:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    El número de días especificados se vuelve a contabilizar. Si el archivo tiene fecha en la fecha o antes de la fecha de llegada, se aplica la máscara.

  2. Una fecha real con el formato AAAA-MM-DD. Por ejemplo, supongamos que la máscara de fecha es la siguiente:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Si el documento coincidente tiene fecha en la fecha especificada o antes de ella, se aplica la máscara de fecha.

A continuación se muestra un ejemplo sencillo de máscara de fecha de exclusión:

exclude-days 90 https://www.mydomain.com/docs/archive

Como se trata de una máscara de fecha de exclusión, cualquier archivo que coincida con el patrón no se indexa y tiene 90 días o más. Al excluir un documento, no se indexa ningún texto y no se siguen vínculos de ese archivo. El archivo se ignora de forma efectiva. En este ejemplo, tanto los archivos como las carpetas pueden coincidir con el patrón de URL especificado. Observe que tanto https://www.mydomain.com/docs/archive.html como https://www.mydomain.com/docs/archive/index.html coinciden con el patrón y no se indexan si tienen 90 días o más. Para que coincida únicamente con los archivos de la carpeta /docs/archive/ , la máscara de fecha debe contener una barra diagonal como se muestra a continuación:

exclude-days 90 https://www.mydomain.com/docs/archive/

Las máscaras de fecha también se pueden utilizar con comodines. La siguiente máscara de exclusión indica al robot de búsqueda que pase por alto los archivos con la extensión ".pdf" que tengan fecha o fecha anterior al 2011-02-15. El robot de búsqueda no agrega ningún archivo coincidente a su índice.

exclude-date 2011-02-15 *.pdf

La máscara de fecha de inclusión tiene un aspecto similar, solo se añaden al índice los archivos coincidentes. El siguiente ejemplo de máscara de fecha de inclusión indica al robot de búsqueda que indexe el texto de cualquier archivo que tenga cero días o más en el área /docs/archive/manual/ del sitio web.

include-days 0 https://www.mydomain.com/docs/archive/manual/

Incluir máscaras y excluir máscaras pueden funcionar juntas. Por ejemplo, puede excluir una gran parte del sitio web de la indexación creando una máscara de fecha de exclusión, pero incluyendo una o más de las páginas excluidas con una máscara de URL de inclusión. Si la dirección URL del punto de entrada es la siguiente:

https://www.mydomain.com/archive/

El robot de búsqueda rastrea e indexa todas las páginas en /archive/summer/, /archive/spring/ y /archive/fall/ (suponiendo que haya vínculos a al menos una página en cada carpeta de la carpeta archive). Este comportamiento se produce porque las rutas de vínculo permiten al robot de búsqueda "encontrar" los archivos de las carpetas /summer/, /spring/ y /fall/ y que las direcciones URL de las carpetas coinciden con la máscara de inclusión generada automáticamente por la dirección URL del punto de entrada.

Consulte Acerca de los puntos de entrada de URL.

Consulte Configuración de la cuenta.

Puede elegir excluir todas las páginas con más de 90 días de antigüedad en la carpeta /fall/ con una máscara de fecha de exclusión, como se muestra a continuación:

exclude-days 90 https://www.mydomain.com/archive/fall/

Puede incluir selectivamente solo /archive/fall/index.html (independientemente de su antigüedad; se hace coincidir cualquier archivo de 0 días o más) como parte del índice con la siguiente máscara de fecha:

include-days 0 https://www.mydomain.com/archive/fall/index.html

Para que los dos ejemplos de máscara anteriores funcionen según lo previsto, debe incluir primero la máscara de inclusión como en el siguiente:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Dado que el robot de búsqueda sigue las indicaciones en el orden en que se especifican, el robot de búsqueda primero incluye /archive/fall/index.html y luego excluye el resto de los archivos de la carpeta /fall.

Si las instrucciones se especifican de la forma opuesta a la siguiente:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

A continuación, no se incluye /archive/fall/index.html aunque la máscara especifique que debe estarlo. Una máscara de fecha que aparece primero siempre tiene prioridad sobre una máscara de fecha que podría aparecer más adelante en la configuración de la máscara. Además, si el robot de búsqueda encuentra una página que coincide tanto con una máscara de fecha de inclusión como con una máscara de fecha de exclusión, la máscara que aparece primero siempre tiene prioridad.

Consulte Configuración de un índice incremental de un sitio web provisional.

Acerca del uso de palabras clave con máscaras de fecha

Puede clasificar cada máscara de inclusión con una o más palabras clave separadas por espacio, lo que afecta a cómo se indexan las páginas coincidentes.

Una coma no es válida como separador entre la máscara y la palabra clave; solo puede utilizar espacios.

Palabra clave

Descripción

noindex

Si no desea indexar el texto en las páginas con fecha o antes de la fecha especificada por la máscara de inclusión, agregue noindex después de la máscara de fecha de inclusión, como se muestra a continuación:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Asegúrese de separar la palabra clave de la máscara con un espacio.

El ejemplo anterior especifica que el robot de búsqueda sigue todos los vínculos de archivos con la extensión ".swf" que tengan 10 días o más. Sin embargo, deshabilita la indexación de todo el texto contenido en esos archivos.

Es posible que desee asegurarse de que el texto de los archivos más antiguos no esté indexado, pero siga todos los vínculos de esos archivos. En estos casos, utilice una máscara de fecha de inclusión con la palabra clave "noindex" en lugar de utilizar una máscara de fecha de exclusión.

noseguir

Si desea indexar el texto en las páginas con fecha o antes de la fecha especificada por la máscara de inclusión, pero no desea seguir los vínculos de la página coincidente, agregue nofollow después de la máscara de fecha de inclusión, como se muestra a continuación:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Asegúrese de separar la palabra clave de la máscara con un espacio.

La variable La palabra clave nofollow es equivalente a una metaetiqueta de robot con content="nofollow" entre la variable <head>...</head> etiqueta de páginas coincidentes.

server-date

Se utiliza para incluir y excluir máscaras.

El robot de búsqueda generalmente descarga y analiza cada archivo antes de comprobar las máscaras de fecha. Este comportamiento se produce porque algunos tipos de archivo pueden especificar una fecha dentro del propio archivo. Por ejemplo, un documento HTML puede incluir metaetiquetas que establecen la fecha del archivo.

Si va a excluir muchos archivos en función de su fecha y no desea cargar innecesariamente los servidores, puede usar server-date después de la dirección URL en la máscara de fecha.

Esta palabra clave indica al robot de búsqueda que confíe en la fecha del archivo que devuelve el servidor en lugar de analizar cada archivo. Por ejemplo, la siguiente máscara de fecha de exclusión ignora las páginas que coinciden con la dirección URL si los documentos tienen 90 días o más, según la fecha que devuelva el servidor en los encabezados HTTP:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Si la fecha devuelta por el servidor ha transcurrido 90 días o más, server-date especifica que los documentos excluidos no se descargan del servidor. El resultado significa un tiempo de indexación más rápido para los documentos y una carga reducida colocada en los servidores. If server-date no se especifica, el robot de búsqueda ignora la fecha que devuelve el servidor en los encabezados HTTP. En su lugar, se descarga y comprueba cada archivo para ver si se especifica la fecha. Si no se especifica ninguna fecha en el archivo, el robot de búsqueda utiliza la fecha que devuelve el servidor.

No debe usar server-date si los archivos contienen comandos que anulan la fecha del servidor.

regexp

Se utiliza para incluir y excluir máscaras.

Cualquier máscara de fecha precedida por regexp se trata como una expresión regular.

Si el robot de búsqueda encuentra archivos que coinciden con una máscara de fecha de expresión regular de exclusión, no los indexa.

Si el robot de búsqueda encuentra archivos que coinciden con una máscara de fecha de expresión regular de inclusión, indexa esos documentos.

Por ejemplo, supongamos que tiene la siguiente máscara de fecha:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

La máscara indica al robot de búsqueda que excluya los archivos coincidentes que tengan 180 días o más. Es decir, archivos que contienen la palabra "archive" en su URL.

Consulte Expresiones regulares .

Adición de máscaras de fecha para indexar o no partes del sitio web

Puede utilizar Máscaras de fecha para incluir o excluir archivos de los resultados de búsqueda de clientes en función de la edad de los archivos.

Utilice los campos Test Date y Test URL para comprobar si un archivo se incluye o no después del índice.

Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Para agregar máscaras de fecha para indexar o no partes del sitio web

  1. En el menú del producto, haga clic en Settings > Crawling > Date Masks.

  2. (Opcional) En la página Date Masks, en el campo Test Date, introduzca una fecha con el formato AAAA-MM-DD (por ejemplo, 2011-07-25); en el campo Test URL, introduzca una máscara de URL del sitio web y haga clic en Test.

  3. En el campo Date Masks, introduzca una dirección de máscara de fecha por línea.

  4. Haga clic Save Changes.

  5. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca de las contraseñas

Para acceder a partes del sitio web protegidas con autenticación básica HTTP, puede agregar una o más contraseñas.

Para que los clientes puedan ver los efectos de la configuración de la contraseña, debe volver a generar el índice del sitio.

Consulte Configuración de un índice incremental de un sitio web provisional.

En la página Passwords, escriba cada contraseña en una sola línea. La contraseña consiste en una dirección URL o dominio, un nombre de usuario y una contraseña, como en el siguiente ejemplo:

https://www.mydomain.com/ myname mypassword

En lugar de usar una ruta de URL, como en el ejemplo anterior, también puede especificar un dominio.

Para determinar el dominio correcto a utilizar, abra una página web protegida por contraseña con un navegador y mire el cuadro de diálogo "Introducir contraseña de red".

El nombre de territorio, en este caso, es "Mi territorio del sitio".

Con el nombre de dominio anterior, la contraseña puede tener el siguiente aspecto:

My Site Realm myusername mypassword

Si el sitio web tiene varios dominios, puede crear varias contraseñas introduciendo un nombre de usuario y una contraseña para cada dominio en una línea independiente, como en el siguiente ejemplo:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Puede combinar contraseñas que contengan direcciones URL o reinos para que la lista de contraseñas se parezca a la siguiente:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

En la lista anterior, se utiliza la primera contraseña que contiene un dominio o una dirección URL que coincide con la solicitud de autenticación del servidor. Incluso si el archivo en https://www.mysite.com/path1/path2/index.html está en Realm3, por ejemplo, name2 y password2 se utilizan porque la contraseña definida con la dirección URL se muestra por encima de la definida con el dominio.

Adición de contraseñas para acceder a las áreas del sitio web que requieren autenticación

Puede utilizar Contraseñas para acceder a áreas del sitio web protegidas con contraseña con fines de rastreo e indexación.

Antes de que los efectos de la contraseña sean visibles para los clientes, asegúrese de reconstruir el índice del sitio

Consulte Configuración de un índice incremental de un sitio web provisional.

Para agregar contraseñas para acceder a áreas del sitio web que requieran autenticación

  1. En el menú del producto, haga clic en Settings > Crawling > Passwords.

  2. En la página Passwords, en el campo Passwords, introduzca un dominio o una dirección URL, y su nombre de usuario y contraseña asociados, separados por un espacio.

    Ejemplo de contraseña de dominio y contraseña de URL en líneas independientes:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Solo añada una contraseña por línea.

  3. Haga clic Save Changes.

  4. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca de los tipos de contenido

Puede utilizar Content Types para seleccionar qué tipos de archivos desea rastrear e indexar para esta cuenta.

Los tipos de contenido que puede elegir rastrear e indexar incluyen documentos PDF, documentos de texto, películas de Flash de Adobe, archivos de aplicaciones de Microsoft Office como Word, Excel y Powerpoint, y texto en archivos MP3. El texto que se encuentra dentro de los tipos de contenido seleccionados se busca junto con el resto del texto del sitio web.

Para que los clientes puedan ver los efectos de la configuración de Tipos de contenido, debe volver a generar el índice del sitio.

Consulte Configuración de un índice incremental de un sitio web provisional.

Acerca de la indexación de archivos de música MP3

Si selecciona la opción Text in MP3 Music Files en la página Content Types , se rastrea un archivo MP3 y se indexa de una de las dos maneras siguientes. La primera y más común forma de hacerlo es desde una etiqueta href delimitadora en un archivo HTML como se muestra a continuación:

<a href="MP3-file-URL"></a>

La segunda forma es introducir la URL del archivo MP3 como punto de entrada de URL.

Consulte Acerca de los puntos de entrada de URL.

Un archivo MP3 se reconoce por su tipo MIME "audio/mpeg".

Tenga en cuenta que los tamaños de archivo de música MP3 pueden ser bastante grandes, aunque normalmente contienen sólo una pequeña cantidad de texto. Por ejemplo, los archivos MP3 pueden, opcionalmente, almacenar cosas como el nombre del álbum, el nombre del artista, el título de la canción, el género de la canción, el año de lanzamiento y un comentario. Esta información se almacena al final del archivo en lo que se denomina TAG. Los archivos MP3 que contienen información de TAG se indexan de la siguiente manera:

  • El título de la canción se trata como el título de una página HTML.
  • El comentario se trata como una descripción definida para una página HTML.
  • El género se trata como una palabra clave definida para una página HTML.
  • El nombre del artista, el nombre del álbum y el año de lanzamiento se tratan como el cuerpo de una página HTML.

Tenga en cuenta que cada archivo MP3 que se rastrea e indexa en su sitio web cuenta como una página.

Si su sitio web contiene muchos archivos MP3 de gran tamaño, puede que exceda el límite de bytes de indexación de su cuenta. Si esto sucede, puede anular la selección Text in MP3 Music Files en la página Content Types para evitar la indexación de todos los archivos MP3 del sitio web.

Si solo desea evitar la indexación de ciertos archivos MP3 en su sitio web, puede realizar una de las siguientes acciones:

  • Rodee las etiquetas de anclaje que se vinculan a los archivos MP3 con etiquetas <nofollow> y </nofollow>. El robot de búsqueda no sigue los vínculos entre esas etiquetas.

  • Añada las direcciones URL de los archivos MP3 como máscaras de exclusión.

    Consulte Acerca de las máscaras de URL.

Selección de tipos de contenido para rastrear e indexar

Puede utilizar Content Types para seleccionar qué tipos de archivos desea rastrear e indexar para esta cuenta.

Los tipos de contenido que puede elegir rastrear e indexar incluyen documentos PDF, documentos de texto, películas de Flash de Adobe, archivos de aplicaciones de Microsoft Office como Word, Excel y Powerpoint, y texto en archivos MP3. El texto que se encuentra dentro de los tipos de contenido seleccionados se busca junto con el resto del texto del sitio web.

Para que los clientes puedan ver los efectos de la configuración de Tipos de contenido, debe volver a generar el índice del sitio.

Consulte Configuración de un índice incremental de un sitio web provisional.

Para rastrear e indexar archivos MP3 chinos, japoneses o coreanos, complete los pasos a continuación. A continuación, en Settings > Metadata > Injections, especifique el conjunto de caracteres que se utiliza para codificar los archivos MP3.

Consulte Acerca de las inyecciones.

Seleccionar tipos de contenido para rastrear e indexar

  1. En el menú del producto, haga clic en Settings > Crawling > Content Types.

  2. En la página Content Types, compruebe los tipos de archivo que desea rastrear e indexar en el sitio web.

  3. Haga clic Save Changes.

  4. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca de las conexiones

Puede utilizar Conexiones para agregar hasta diez conexiones HTTP que el robot de búsqueda utiliza para indexar su sitio web.

Aumentar el número de conexiones puede reducir significativamente la cantidad de tiempo que se tarda en completar un rastreo y un índice. Sin embargo, tenga en cuenta que cada conexión adicional aumenta la carga en el servidor.

Añadir conexiones para aumentar la velocidad de indexación

Puede reducir la cantidad de tiempo que se tarda en indexar el sitio web mediante Conexiones para aumentar el número de conexiones HTTP simultáneas que utiliza el rastreador. Se pueden agregar hasta diez conexiones.

Tenga en cuenta que cada conexión adicional aumenta la carga que se coloca en el servidor.

Para agregar conexiones para aumentar la velocidad de indexación

  1. En el menú del producto, haga clic en Settings > Crawling > Connections.

  2. En la página Parallel Indexing Connections, en el campo Number of Connections, introduzca el número de conexiones (1-10) que desea agregar.

  3. Haga clic Save Changes.

  4. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca del envío del formulario

Puede utilizar el envío de formulario para ayudarle a reconocer y procesar los formularios en su sitio web.

Durante el rastreo y la indexación del sitio web, cada formulario encontrado se compara con las definiciones de formulario agregadas. Si un formulario coincide con una definición del formulario, se envía para su indexación. Si un formulario coincide con más de una definición, el formulario se envía una vez para cada definición coincidente.

Adición de definiciones de formulario para la indexación de formularios en el sitio web

Puede utilizar Form Submission para ayudar a procesar los formularios que se reconocen en el sitio web con fines de indexación.

Asegúrese de reconstruir el índice del sitio para que los resultados de los cambios sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Adición de definiciones de formulario para la indexación de formularios en el sitio web

  1. En el menú del producto, haga clic en Settings > Crawling > Form Submission.

  2. En la página Form Submission, haga clic en Add New Form.

  3. En la página Add Form Definition, configure las opciones Form Recognition y Form Submission .

    Las cinco opciones de la sección Form Recognition de la página Form Definition se utilizan para identificar los formularios de las páginas web que se pueden procesar.

    Las tres opciones de la sección Form Submission se utilizan para especificar los parámetros y valores que se envían con un formulario al servidor web.

    Introduzca un parámetro de reconocimiento o envío por línea. Cada parámetro debe incluir un nombre y un valor.

    Opción

    Descripción

    Reconocimiento de formularios

    Máscara de dirección URL de la página

    Identifique la página web o páginas que contienen el formulario. Para identificar un formulario que aparece en una sola página, introduzca la dirección URL de esa página, como en el siguiente ejemplo:

    https://www.mydomain.com/login.html

    Para identificar los formularios que aparecen en varias páginas, especifique una máscara de dirección URL que utilice caracteres comodín para describir las páginas. Para identificar los formularios encontrados en cualquier página ASP en https://www.mydomain.com/register/ , por ejemplo, debe especificar lo siguiente:

    https://www.mydomain.com/register/*.asp&nbsp;

    También puede utilizar una expresión regular para identificar varias páginas. Especifique la variable Palabra clave regexp antes de la máscara de URL, como en el siguiente ejemplo:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    Máscara de URL de acción

    Identifica el atributo de acción de la variable etiqueta <form> .

    Al igual que la máscara de dirección URL de la página, la máscara de dirección URL de acción puede adoptar la forma de una sola dirección URL, una dirección URL con caracteres comodín o una expresión regular.

    La máscara de URL puede ser cualquiera de las siguientes:

    • Una ruta completa como la siguiente: https://www.mydomain.com/products.html
    • Una ruta parcial como la siguiente: https://www.mydomain.com/products
    • Una URL que utiliza comodines como en el siguiente ejemplo: https://www.mydomain.com/*.html
    • Una expresión regular como la siguiente: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Si no desea indexar el texto en páginas identificadas por una máscara de URL o por una máscara de URL de acción, o si no desea que se sigan vínculos en esas páginas, puede usar la variable noindex y nofollow palabras clave. Puede agregar estas palabras clave a sus máscaras usando máscaras de URL o puntos de entrada.

    Consulte Acerca de los puntos de entrada de URL .

    Consulte Acerca de las máscaras de URL .

    Máscara de nombre de formulario

    Identifica los formularios si la variable Las etiquetas <form> de las páginas web contienen un atributo name.

    Puede utilizar un nombre simple ( login_form ), un nombre con un comodín ( form* ) o una expresión regular ( regexp ^.*authorize.*$ ).

    Normalmente, este campo se puede dejar vacío porque los formularios no suelen tener un atributo de nombre.

    Máscara de ID de formulario

    Identifica los formularios si la variable Las etiquetas <form> de las páginas web contienen un atributo id.

    Puede utilizar un nombre simple ( login_form ), un nombre con un comodín ( form* ) o una expresión regular ( regexp ^.*authorize.*$ ).

    Normalmente, este campo se puede dejar vacío porque los formularios no suelen tener un atributo de nombre.

    Parámetros

    Identifique los formularios que contienen o no contienen un parámetro con nombre o un parámetro con nombre con un valor específico.

    Por ejemplo, para identificar un formulario que contenga un parámetro de correo electrónico preestablecido en rick_brough@mydomain.com, un parámetro de contraseña, pero no un parámetro de nombre, debe especificar la siguiente configuración de parámetro, una por línea:

    email=rick_brough@mydomain.com password not first-name

    Envío de formulario

    Anular URL de acción

    Especifique cuándo el destino del envío del formulario es diferente del especificado en el atributo de acción del formulario.

    Por ejemplo, puede utilizar esta opción cuando el formulario se envíe mediante una función de JavaScript que construya un valor de URL diferente del que se encuentra en el formulario.

    Override (método)

    Especifique cuándo el destino del envío del formulario es diferente del que se utiliza en el atributo de acción del formulario y cuándo el JavaScript de envío ha cambiado el método.

    Los valores predeterminados de todos los parámetros de formulario ( etiquetas <input> , incluidos los campos ocultos), el valor predeterminado <option> desde un <select> y el texto predeterminado entre <textarea>...</textarea> ) se leen desde la página web. Sin embargo, cualquier parámetro que aparezca en la sección Envío de formulario del campo Parámetros se reemplaza por los valores predeterminados del formulario.

    Parámetros

    Los parámetros de envío de formulario se pueden prefijar con la variable not palabra clave.

    Cuando crea un prefijo de un parámetro con not , no se envía como parte del envío del formulario. Este comportamiento resulta útil para las casillas de verificación que deben enviarse sin seleccionar.

    Por ejemplo, supongamos que desea enviar los siguientes parámetros:

    • El parámetro de correo electrónico con el valor nobody@mydomain.com
    • El parámetro de contraseña con el valor tryme
    • El parámetro mycheck no está seleccionado.
    • El resto <form> como valores predeterminados

    El parámetro de envío de formulario tendría el siguiente aspecto:

    email=nobody@mydomain.com password=tryme not mycheckbox

    El atributo de método de la variable La etiqueta <form> de la página web se usa para decidir si los datos se envían al servidor mediante el método de GET o el método de POST.

    Si la variable La etiqueta <form> no contiene un atributo de método; el formulario se envía mediante el método de GET.

  4. Haga clic Add.

  5. (Opcional) Realice cualquiera de las siguientes acciones:

Edición de una definición de formulario

Puede editar una definición de formulario existente si ha cambiado un formulario del sitio web o si solo necesita cambiar la definición.

Tenga en cuenta que no hay ninguna función History en la página Form Submission para revertir los cambios realizados en la definición del formulario.

Asegúrese de reconstruir el índice del sitio para que los resultados de los cambios sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Edición de una definición de formulario

  1. En el menú del producto, haga clic en Settings > Crawling > Form Submission.

  2. En la página Form Submission, haga clic en Edit a la derecha de la definición del formulario que desea actualizar.

  3. En la página Edit Form Definition, configure las opciones Form Recognition y Form Submission .

    Consulte la tabla de opciones en Adición de definiciones de formulario para la indexación de formularios en el sitio web.

  4. Haga clic Save Changes.

  5. (Opcional) Realice cualquiera de las siguientes acciones:

Eliminación de una definición de formulario

Puede eliminar una definición de formulario existente si el formulario ya no existe en el sitio web o si ya no desea procesar e indexar un formulario concreto.

Tenga en cuenta que no hay ninguna función History en la página Form Submission para revertir los cambios realizados en la definición del formulario.

Asegúrese de reconstruir el índice del sitio para que los resultados de los cambios sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Eliminación de una definición de formulario

  1. En el menú del producto, haga clic en Settings > Crawling > Form Submission.

  2. En la página Form Submission, haga clic en Delete a la derecha de la definición del formulario que desea quitar.

    Asegúrese de elegir la definición de formulario correcta que desee eliminar. No hay ningún cuadro de diálogo de confirmación de eliminación cuando hace clic en Delete en el paso siguiente.

  3. En la página Delete Form Definition, haga clic en Delete.

  4. (Opcional) Realice cualquiera de las siguientes acciones:

Acerca del conector de índice

Utilice Index Connector para definir fuentes de entrada adicionales para indexar páginas XML o cualquier tipo de fuente.

Se puede utilizar un origen de entrada de fuente de datos para acceder a contenido almacenado en un formulario diferente al que se suele descubrir en un sitio web mediante uno de los métodos de rastreo disponibles. Cada documento que se rastrea e indexa directamente corresponde a una página de contenido del sitio web. Sin embargo, una fuente de datos proviene de un documento XML o de un archivo de texto delimitado por comas o tabulaciones, y contiene la información de contenido que se va a indexar.

Un origen de datos XML consta de tablas o registros XML que contienen información que corresponde a documentos individuales. Estos documentos individuales se añaden al índice. Una fuente de datos de texto contiene registros individuales delimitados por líneas nuevas que corresponden a documentos individuales. Estos documentos individuales también se añaden al índice. En cualquier caso, una configuración de conector de índice describe cómo interpretar la fuente. Cada configuración describe dónde reside el archivo y cómo acceden a él los servidores. La configuración también describe la información de "asignación". Es decir, cómo se utilizan los elementos de cada registro para rellenar los campos de metadatos en el índice resultante.

Después de agregar una definición de conector de índice a la página Staged Index Connector Definitions, puede cambiar cualquier configuración, excepto para los valores Nombre o Tipo.

La página Index Connector muestra la siguiente información:

  • El nombre de los conectores de índice definidos que ha configurado y agregado.

  • Uno de los siguientes tipos de fuentes de datos para cada conector que ha agregado:

    • Texto : archivos "planos" simples, delimitados por comas, delimitados por tabulaciones u otros formatos delimitados de forma consistente.
    • Fuente : fuentes XML.
    • XML : colecciones de documentos XML.
  • Indica si el conector está habilitado o no para el siguiente rastreo e indexación realizado.

  • La dirección del origen de datos.

Consulte también Acerca del conector de índice

Cómo funciona el proceso de indexación para las configuraciones de texto y fuente en el conector de índice

Paso

Proceso

Descripción

1

Descargue la fuente de datos.

Para las configuraciones de texto y fuente, es una descarga de archivo sencilla.

2

Desglose la fuente de datos descargada en seudodocumentos individuales.

Para Texto , cada línea de texto delimitada por líneas nuevas corresponde a un documento individual y se analiza utilizando el delimitador especificado, como una coma o una tabulación.

Para Fuente , los datos de cada documento se extraen utilizando un patrón de expresión regular en el siguiente formulario:

<${Itemtag}>(.*?)</${Itemtag}>

Con Asignar en la página Conector de índice Agregar , cree una copia en caché de los datos y, a continuación, cree una lista de vínculos para el buscador. Los datos se almacenan en una caché local y se rellenan con los campos configurados.

Los datos analizados se escriben en la caché local.

Esta caché se lee más tarde para crear los documentos HTML simples que necesita el rastreador. Por ejemplo,

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

El elemento <title> solo se genera cuando existe una asignación al campo de metadatos Título . Del mismo modo, el elemento <body> solo se genera cuando existe una asignación al campo de metadatos Body .

Importante: No se admite la asignación de valores a la metaetiqueta de URL predefinida.

Para todas las demás asignaciones, se generan etiquetas <meta> para cada campo que tenga datos encontrados en el documento original.

Los campos de cada documento se añaden a la caché. Para cada documento que se escribe en la caché, también se genera un vínculo como en los ejemplos siguientes:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

La asignación de la configuración debe tener un campo identificado como Clave principal. Esta asignación forma la clave que se utiliza cuando se recuperan datos de la caché.

El rastreador reconoce el índice de la dirección URL : prefijo de esquema, que puede acceder a los datos almacenados en caché localmente.

3

Rastrear el conjunto de documentos en caché.

El índice : Los vínculos se agregan a la lista pendiente del rastreador y se procesan en la secuencia de rastreo normal.

4

Procese cada documento.

El valor de clave de cada vínculo corresponde a una entrada de la caché, por lo que al rastrear cada vínculo, los datos de ese documento se recuperan de la caché. A continuación, se "integra" en una imagen HTML que se procesa y se añade al índice.

Cómo funciona el proceso de indexación para las configuraciones XML en el conector de índice

El proceso de indexación para la configuración XML es similar al proceso para las configuraciones de texto y fuente con los siguientes cambios y excepciones menores.

Debido a que los documentos para los rastreos XML ya están separados en archivos individuales, los pasos 1 y 2 de la tabla anterior no se aplican directamente. Si especifica una dirección URL en los campos Host Address y File Path de la página Index Connector Add, se descarga y procesa como documento HTML normal. Se espera que el documento de descarga contenga una colección de vínculos <a href="{url}"..., cada uno de los cuales apunta a un documento XML que se procesa. Estos vínculos se convierten al siguiente formulario:

<a href="index:<ic_config_name>?url="{url}">

Por ejemplo, si la configuración de Adobe devolvía los siguientes vínculos:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

En la tabla anterior, el paso 3 no se aplica y el paso 4 se completa en el momento del rastreo y la indexación.

De lo contrario, puede combinar los documentos XML con otros documentos que se hayan descubierto de forma natural a través del proceso de rastreo. En estos casos, puede utilizar reglas de reescritura ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) para cambiar las direcciones URL de los documentos XML y dirigirlos al conector de índice.

Consulte Acerca de las reglas de recuperación de listas arrastradas.

Por ejemplo, se supone que tiene la siguiente regla de reescritura:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Esta regla traduce cualquier URL que termine con .xml en un vínculo de conector de índice. El rastreador reconoce y reescribe el esquema de URL index:. El proceso de descarga se redirige a través del servidor Apache del conector de índice en el servidor principal. Cada documento descargado se examina utilizando el mismo patrón de expresión regular que se utiliza con las fuentes. Sin embargo, en este caso, el documento HTML fabricado no se guarda en la caché. En su lugar, se entrega directamente al rastreador para el procesamiento de índices.

Configuración de varios conectores de índice

Puede definir varias configuraciones de conector de índice para cualquier cuenta. Las configuraciones se añaden automáticamente a la lista desplegable en Settings > Crawl > URL Entrypoints como se muestra en la siguiente ilustración:

Al seleccionar una configuración en la lista desplegable, se agrega el valor al final de la lista de puntos de entrada de URL.

NOTA

Mientras que las configuraciones de conector de índice desactivadas se añaden a la lista desplegable, no se pueden seleccionar. Si selecciona la misma configuración del conector de índice por segunda vez, se añade al final de la lista y se elimina la instancia anterior.

Para especificar un punto de entrada del conector de índice para un rastreo incremental, puede agregar entradas con el siguiente formato:

index:<indexconnector_configuration_name>

El rastreador procesa cada entrada añadida si se encuentra en la página Conectores de índice y está habilitada.

Nota: Dado que la URL de cada documento se construye utilizando el nombre de configuración del conector de índice y la clave principal del documento, asegúrese de utilizar el mismo nombre de configuración del conector de índice al realizar actualizaciones incrementales. Al hacerlo, Adobe Search&Promote permite actualizar correctamente los documentos indexados anteriormente.

Consulte también Acerca de los puntos de entrada de URL.

El uso de mapas de configuración al añadir un conector de índice

En el momento de agregar un conector de índice, puede utilizar la función Setup Maps para descargar una muestra de la fuente de datos. Los datos se examinan para determinar la idoneidad de la indexación.

Si elige el tipo de conector de índice...

La función de mapas de configuración...

Texto

Determina el valor del delimitador probando primero las pestañas y luego las barras verticales ( | ) y finalmente comas ( , ). Si ya especificó un valor de delimitador antes de hacer clic en Mapas de configuración , se utilizará ese valor en su lugar.

El esquema que mejor se adapta permitirá rellenar los campos de mapa con suposiciones en los valores de campo y etiqueta adecuados. Además, se muestra un muestreo de los datos analizados. Asegúrese de seleccionar Encabezados en la primera fila si sabe que el archivo incluye una fila de encabezado. La función de configuración utiliza esta información para identificar mejor las entradas de mapa resultantes.

Fuente

Descarga el origen de datos y realiza un análisis XML sencillo.

Los identificadores XPath resultantes se muestran en las filas Tag de la tabla Map y valores similares en Fields. Estas filas solo identifican los datos disponibles y no generan las definiciones XPath más complicadas. Sin embargo, sigue siendo útil porque describe los datos XML e identifica los valores de Itemtag.

Nota: La función de mapas de configuración descarga el origen XML completo para realizar su análisis. Si el archivo es grande, esta operación podría agotarse.

Cuando se realiza correctamente, esta función identifica todos los elementos XPath posibles, muchos de los cuales no son deseables de usar. Asegúrese de examinar las definiciones de Mapa resultantes y eliminar las que no necesite o desee.

XML

Descarga la dirección URL de un documento individual representativo, no la lista de vínculos principal. Este documento único se analiza utilizando el mismo mecanismo que se utiliza con las fuentes y se muestran los resultados.

Antes de hacer clic en Agregar para guardar la configuración, asegúrese de volver a cambiar la dirección URL al documento de la lista de vínculos principal.

Importante: Es posible que la función de mapas de configuración no funcione para grandes conjuntos de datos XML porque su analizador de archivos intenta leer todo el archivo en la memoria. Como resultado, podría experimentar una condición de falta de memoria. Sin embargo, cuando el mismo documento se procesa en el momento de la indexación, no se lee en la memoria. En su lugar, los documentos grandes se procesan "sobre la marcha" y no se leen en la memoria por completo primero.

El uso de Vista previa al añadir un conector de índice

En el momento de agregar un conector de índice, puede utilizar la función Preview para validar los datos, como si lo estuviera guardando. Ejecuta una prueba con la configuración, pero sin guardar la configuración en la cuenta. La prueba accede al origen de datos configurado. Sin embargo, escribe la caché de descarga en una ubicación temporal; no entra en conflicto con la carpeta de caché principal que utiliza el rastreador de indexación.

La vista previa solo procesa un valor predeterminado de cinco documentos, tal como está controlado por Acct:IndexConnector-Preview-Max-Documents. Los documentos mostrados en la vista previa se muestran en el formulario de origen, a medida que se presentan al rastreador de indexación. La visualización es similar a la función "Ver fuente" de un explorador web. Puede navegar por los documentos del conjunto de vista previa utilizando vínculos de navegación estándar.

La vista previa no admite configuraciones XML porque estos documentos se procesan directamente y no se descargan en la caché.

Adición de una definición de conector de índice

Cada configuración de conector de índice define un origen de datos y asignaciones para relacionar los elementos de datos definidos para ese origen con los campos de metadatos del índice.

Antes de que los efectos de la definición nueva y habilitada sean visibles para los clientes, reconstruya el índice del sitio.

Adición de una definición de conector de índice

  1. En el menú del producto, haga clic en Settings > Crawling > Index Connector.

  2. En la página Stage Index Connector Definitions, haga clic en Add New Index Connector.

  3. En la página Index Connector Add, configure las opciones de conector que desee. Las opciones disponibles dependen del Type que haya seleccionado.

    Opción

    Descripción

    Nombre

    Nombre exclusivo de la configuración del conector de índice. Puede utilizar caracteres alfanuméricos. También se permiten los caracteres "_" y "-".

    Tipo

    La fuente de los datos. El tipo de fuente de datos que seleccione afecta a las opciones resultantes que están disponibles en la página Agregar Conector de índice. Puede elegir entre las siguientes opciones:

    • Texto

      Archivos de texto plano simples, delimitados por comas, delimitados por tabulaciones u otros formatos delimitados de forma consistente. Cada línea de texto delimitada por líneas nuevas corresponde a un documento individual y se analiza utilizando el delimitador especificado.

      Puede asignar cada valor, o columna, a un campo de metadatos, al que se hace referencia en el número de columna, a partir del 1 (uno).

    • Fuente

      Descarga un documento XML principal que contiene varias "filas" de información.

    • XML

      Descarga un documento XML principal que contiene vínculos ( <a> ) a documentos XML individuales.

    Tipo de fuente de datos: Texto

    Habilitado

    Activa la configuración para rastrear e indexar. O bien, puede desactivar la configuración para evitar el rastreo y la indexación.

    Nota: Las configuraciones del conector de índice desactivadas se omiten si se encuentran en una lista de puntos de entrada.

    Dirección del host

    Especifica la dirección del host del servidor donde se encuentran los datos.

    Si lo desea, puede especificar una ruta URI completa (Uniform Resource Identifier) al documento de origen de datos como en los ejemplos siguientes:

    https://www.somewhere.com/some_path/some_file.xml

    o

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    El URI se desglosa en las entradas adecuadas para los campos Dirección de host, Ruta de archivo, Protocolo y, opcionalmente, Nombre de usuario y Contraseña.

    Especifica la dirección IP o la dirección URL del sistema host en el que se encuentra el archivo de origen de datos.

    Ruta de archivo

    Especifica la ruta al archivo de texto plano simple, delimitado por comas, delimitado por tabulaciones u otro archivo de formato delimitado por tabulaciones.

    La ruta es relativa a la raíz de la dirección del host.

    Ruta de archivo incremental

    Especifica la ruta al archivo de texto plano simple, delimitado por comas, delimitado por tabulaciones u otro archivo de formato delimitado por tabulaciones.

    La ruta es relativa a la raíz de la dirección del host.

    Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Si no se especifica ningún archivo, se utilizará el archivo que aparece en Ruta de archivo .

    Ruta de archivo vertical

    Especifica la ruta al archivo de texto plano simple, delimitado por comas, delimitado por tabulaciones u otro archivo de formato delimitado por tabulaciones que se utilizará durante una actualización vertical.

    La ruta es relativa a la raíz de la dirección del host.

    Este archivo, si se especifica, se descarga y procesa durante las operaciones de actualización vertical.

    Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    Elimina la ruta del archivo

    Especifica la ruta al archivo de texto plano simple, que contiene un valor de identificador de documento único por línea.

    La ruta es relativa a la raíz de la dirección del host.

    Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Los valores que se encuentran en este archivo se utilizan para construir solicitudes de "eliminación" para eliminar documentos indexados anteriormente. Los valores de este archivo deben corresponder a los valores encontrados en los archivos de ruta de archivo completa o incremental, en la columna identificada como Clave principal .

    Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    Protocolo

    Especifica el protocolo que se utiliza para acceder al archivo. Puede elegir entre las siguientes opciones:

    • HTTP

      Si es necesario, puede introducir las credenciales de autenticación adecuadas para acceder al servidor HTTP.

    • HTTPS

      Si es necesario, puede introducir las credenciales de autenticación adecuadas para acceder al servidor HTTPS.

    • FTP

      Debe introducir las credenciales de autenticación adecuadas para acceder al servidor FTP.

    • SFTP

      Debe introducir las credenciales de autenticación adecuadas para acceder al servidor SFTP.

    • Archivo

    Tiempo de espera

    Especifica el tiempo de espera, en segundos, para las conexiones FTP, SFTP, HTTP o HTTPS. Este valor debe estar entre 30 y 300.

    Reintentos

    Especifica el número máximo de reintentos de conexiones FTP, SFTP, HTTP o HTTPS fallidas. Este valor debe estar entre 0 y 10.

    Un valor de cero (0) impedirá los intentos de reintento.

    Codificación

    Especifica el sistema de codificación de caracteres que se utiliza en el archivo de origen de datos especificado.

    Delimitador

    Especifica el carácter que desea utilizar para delinear cada campo del archivo de origen de datos especificado.

    El carácter de coma ( , ) es un ejemplo de delimitador. La coma actúa como delimitador de campo que ayuda a separar los campos de datos en el archivo de origen de datos especificado.

    Seleccione la pestaña ? para utilizar el carácter de tabulación horizontal como delimitador.

    Encabezados en primera fila

    Indica que la primera fila del archivo de origen de datos contiene solo información de encabezado, no datos.

    Número mínimo de documentos para la indexación

    Si se establece en un valor positivo, especifica el número mínimo de registros esperados en el archivo descargado. Si se reciben menos registros, se anula la operación de índice.

    Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    Nota: Esta función solo se utiliza durante las operaciones de índice completas.

    Mapa

    Especifica las asignaciones de columna a metadatos, utilizando números de columna.

    • Columna

      Especifica un número de columna, siendo la primera columna 1 (una). Para agregar nuevas filas de asignación para cada columna, en Acción , haga clic en + .

      No es necesario hacer referencia a cada columna en el origen de datos. En su lugar, puede elegir omitir valores.

    • Campo

      Define el valor del atributo name que se utiliza para cada etiqueta <meta> generada.

    • Metadatos?

      Hace que Field se convierta en una lista desplegable desde la cual puede seleccionar campos de metadatos definidos para la cuenta actual.

      El valor Field puede ser un campo de metadatos no definido, si lo desea. Un campo de metadatos no definido a veces resulta útil para crear contenido utilizado por el script de filtrado .

      Consulte Acerca del filtrado de secuencias de comandos .

      Cuando el conector de índice procesa documentos XML con varias visitas en cualquier campo de mapa, los varios valores se concatenan en un solo valor en el documento en caché resultante. De forma predeterminada, estos valores se combinan con un delimitador de coma. Sin embargo, supongamos que el valor Field correspondiente es un campo de metadatos definido. Además, ese campo tiene establecido el atributo Lista de permitidos . En este caso, el valor de los delimitadores de lista del campo, que es el primer delimitador definido, se utiliza en la concatenación.

    • Clave principal

      Solo se identifica una definición de mapa como clave principal. Este campo se convierte en la referencia única que se presenta cuando este documento se agrega al índice. Este valor se utiliza en la dirección URL del documento en el índice.

      Los valores Clave principal deben ser únicos en todos los documentos representados por la configuración del conector de índice; cualquier duplicado encontrado se omitirá. Si los documentos de origen no contienen un solo valor único para su uso como Clave principal , pero dos o más campos juntos pueden formar un identificador único, puede definir la Clave principal combinando varios valores de columna con una barra vertical ("|") que delimite los valores.

    • ¿Borrar HTML?

      Cuando se selecciona esta opción, se elimina cualquier etiqueta HTML que se encuentre en los datos de este campo.

    • Acción

      Permite agregar filas al mapa o eliminarlas del mapa. El orden de las filas no es importante.

    Tipo de fuente de datos: Fuente

    Habilitado

    Activa la configuración para rastrear e indexar. O bien, puede desactivar la configuración para evitar el rastreo y la indexación.

    Nota: Las configuraciones del conector de índice desactivadas se omiten si se encuentran en una lista de puntos de entrada.

    Dirección del host

    Especifica la dirección IP o la dirección URL del sistema host en el que se encuentra el archivo de origen de datos.

    Ruta de archivo

    Especifica la ruta al documento XML principal que contiene varias "filas" de información.

    La ruta es relativa a la raíz de la dirección del host.

    Ruta de archivo incremental

    Especifica la ruta al documento XML incremental que contiene varias "filas" de información.

    La ruta es relativa a la raíz de la dirección del host.

    Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Si no se especifica ningún archivo, se utilizará el archivo que aparece en Ruta de archivo .

    Ruta de archivo vertical

    Especifica la ruta al documento XML que contiene varias "filas" dispersas de información que se utilizarán durante una actualización vertical.

    La ruta es relativa a la raíz de la dirección del host.

    Este archivo, si se especifica, se descarga y procesa durante las operaciones de actualización vertical.

    Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    Elimina la ruta del archivo

    Especifica la ruta al archivo de texto plano simple, que contiene un valor de identificador de documento único por línea.

    La ruta es relativa a la raíz de la dirección del host.

    Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Los valores que se encuentran en este archivo se utilizan para construir solicitudes de "eliminación" para eliminar documentos indexados anteriormente. Los valores de este archivo deben corresponder a los valores encontrados en los archivos de ruta de archivo completa o incremental, en la columna identificada como Clave principal .

    Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    Protocolo

    Especifica el protocolo que se utiliza para acceder al archivo. Puede elegir entre las siguientes opciones:

    • HTTP

      Si es necesario, puede introducir las credenciales de autenticación adecuadas para acceder al servidor HTTP.

    • HTTPS

      Si es necesario, puede introducir las credenciales de autenticación adecuadas para acceder al servidor HTTPS.

    • FTP

      Debe introducir las credenciales de autenticación adecuadas para acceder al servidor FTP.

    • SFTP

      Debe introducir las credenciales de autenticación adecuadas para acceder al servidor SFTP.

    • Archivo

    Itemtag

    Identifica el elemento XML que puede utilizar para identificar líneas XML individuales en el archivo de origen de datos especificado.

    Por ejemplo, en el siguiente fragmento Feed de un documento XML de Adobe, el valor Itemtag es registro :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=es"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=es"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Número mínimo de documentos para la indexación

    Si se establece en un valor positivo, especifica el número mínimo de registros esperados en el archivo descargado. Si se reciben menos registros, se anula la operación de índice.

    Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    Nota: Esta función solo se utiliza durante las operaciones de índice completas.

    Mapa

    Permite especificar asignaciones de elementos XML a metadatos mediante expresiones XPath.

    • Etiqueta

      Especifica una representación XPath de los datos XML analizados. Utilizando el documento XML de Adobe de ejemplo anterior, en la opción Itemtag , se puede asignar utilizando la siguiente sintaxis:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La sintaxis anterior se traduce como:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        El atributo display url del elemento record se asigna al campo de metadatos page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        El atributo contenido de cualquier elemento meta contenido dentro de un elemento metadatos , que se encuentra dentro de un elemento registro , cuyo atributo name es título , se asigna al título del campo de metadatos>.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        El atributo contenido de cualquier elemento meta que se encuentre dentro de un elemento metadatos que se encuentra dentro del elemento registro , cuyo atributo name es descripción , se asigna al campo de metadatos desc .

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        El atributo contenido de cualquier elemento meta contenido dentro de un elemento metadatos , que se encuentra dentro del elemento registro , cuyo atributo name es descripción , se asigna al campo de metadatos cuerpo >.

      XPath es una notación relativamente complicada. Encontrará más información en la siguiente ubicación:

      Consulte https://www.w3schools.com/xpath/

    • Campo

      Define el valor del atributo name que se utiliza para cada etiqueta <meta> generada.

    • Metadatos?

      Hace que Field se convierta en una lista desplegable desde la cual puede seleccionar campos de metadatos definidos para la cuenta actual.

      El valor Field puede ser un campo de metadatos no definido, si lo desea. Un campo de metadatos no definido a veces resulta útil para crear contenido utilizado por el script de filtrado .

      Consulte Acerca del filtrado de secuencias de comandos .

      Cuando el conector de índice procesa documentos XML con varias visitas en cualquier campo de mapa, los varios valores se concatenan en un solo valor en el documento en caché resultante. De forma predeterminada, estos valores se combinan con un delimitador de coma. Sin embargo, supongamos que el valor Field correspondiente es un campo de metadatos definido. Además, ese campo tiene establecido el atributo Lista de permitidos . En este caso, el valor de los delimitadores de lista del campo, que es el primer delimitador definido, se utiliza en la concatenación.

    • Clave principal

      Solo se identifica una definición de mapa como clave principal. Este campo se convierte en la referencia única que se presenta cuando este documento se agrega al índice. Este valor se utiliza en la dirección URL del documento en el índice.

      Los valores Clave principal deben ser únicos en todos los documentos representados por la configuración del conector de índice; cualquier duplicado encontrado se omitirá. Si los documentos de origen no contienen un solo valor único para su uso como Clave principal , pero dos o más campos juntos pueden formar un identificador único, puede definir la Clave principal combinando varias definiciones de etiqueta con una barra vertical ("|") que delimite los valores.

    • ¿Borrar HTML?

      Cuando se selecciona esta opción, se eliminan todas las etiquetas HTML que se encuentren en los datos de este campo.

    • ¿Se utiliza para la eliminación?

      Solo se utiliza durante las operaciones de Índice incremental. Los registros que coinciden con este patrón XPath identifican los elementos que se van a eliminar. El valor Clave principal de cada registro de este tipo se utiliza para construir solicitudes de "eliminación", como con la Ruta de acceso del archivo de eliminación.

      Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso.

    • Acción

      Permite agregar filas al mapa o eliminarlas del mapa. El orden de las filas no es importante.

    Tipo de fuente de datos: XML

    Habilitado

    Activa la configuración para rastrear e indexar. O bien, puede desactivar la configuración para evitar el rastreo y la indexación.

    Nota: Las configuraciones del conector de índice desactivadas se omiten si se encuentran en una lista de puntos de entrada.

    Dirección del host

    Especifica la dirección URL del sistema host en el que se encuentra el archivo de origen de datos.

    Ruta de archivo

    Especifica la ruta al documento XML principal que contiene los vínculos ( <a> ) a documentos XML individuales.

    La ruta es relativa a la raíz de la dirección del host.

    Protocolo

    Especifica el protocolo que se utiliza para acceder al archivo. Puede elegir entre las siguientes opciones:

    • HTTP

      Si es necesario, puede introducir las credenciales de autenticación adecuadas para acceder al servidor HTTP.

    • HTTPS

      Si es necesario, puede introducir las credenciales de autenticación adecuadas para acceder al servidor HTTPS.

    • FTP

      Debe introducir las credenciales de autenticación adecuadas para acceder al servidor FTP.

    • SFTP

      Debe introducir las credenciales de autenticación adecuadas para acceder al servidor SFTP.

    • Archivo

    Nota: La configuración de Protocolo solo se utiliza cuando hay información especificada en los campos Dirección del host y/o Ruta de archivo . Los documentos XML individuales se descargan mediante HTTP o HTTPS, según sus especificaciones de URL.

    Itemtag

    Identifica el elemento XML que define una "fila" en el archivo de origen de datos especificado.

    Mapa

    Permite especificar asignaciones de columna a metadatos mediante números de columna.

    • Etiqueta

      Especifica una representación XPath de los datos XML analizados. Utilizando el documento XML de Adobe de ejemplo anterior, en la opción Itemtag, puede asignarlo con la siguiente sintaxis:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      La sintaxis anterior se traduce como:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        El atributo display url del elemento record se asigna al campo de metadatos page-url .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        El atributo contenido de cualquier elemento meta contenido dentro de un elemento metadatos , que se encuentra dentro de un elemento registro , cuyo atributo name es título , se asigna al título del campo de metadatos>.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        El atributo contenido de cualquier elemento meta que se encuentre dentro de un elemento metadatos que se encuentra dentro del elemento registro , cuyo atributo name es descripción , se asigna al campo de metadatos desc .

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        El atributo contenido de cualquier elemento meta contenido dentro de un elemento metadatos , que se encuentra dentro del elemento registro , cuyo atributo name es descripción , se asigna al campo de metadatos cuerpo >.

      XPath es una notación relativamente complicada. Encontrará más información en la siguiente ubicación:

      Consulte https://www.w3schools.com/xpath/

    • Campo

      Define el valor del atributo name que se utiliza para cada etiqueta <meta> generada.

    • Metadatos?

      Hace que Field se convierta en una lista desplegable desde la cual puede seleccionar campos de metadatos definidos para la cuenta actual.

      El valor Field puede ser un campo de metadatos no definido, si lo desea. Un campo de metadatos no definido a veces resulta útil para crear contenido utilizado por el script de filtrado .

      Consulte Acerca del filtrado de secuencias de comandos .

      Cuando el conector de índice procesa documentos XML con varias visitas en cualquier campo de mapa, los varios valores se concatenan en un solo valor en el documento en caché resultante. De forma predeterminada, estos valores se combinan con un delimitador de coma. Sin embargo, supongamos que el valor Field correspondiente es un campo de metadatos definido. Además, ese campo tiene establecido el atributo Lista de permitidos . En este caso, el valor de los delimitadores de lista del campo, que es el primer delimitador definido, se utiliza en la concatenación.

    • Clave principal

      Solo se identifica una definición de mapa como clave principal. Este campo se convierte en la referencia única que se presenta cuando este documento se agrega al índice. Este valor se utiliza en la dirección URL del documento en el índice.

      Los valores Clave principal deben ser únicos en todos los documentos representados por la configuración del conector de índice; cualquier duplicado encontrado se omitirá. Si los documentos de origen no contienen un solo valor único para su uso como Clave principal , pero dos o más campos juntos pueden formar un identificador único, puede definir la Clave principal combinando varias definiciones de etiqueta con una barra vertical ("|") que delimite los valores.

    • ¿Borrar HTML?

      Cuando se selecciona esta opción, se eliminan todas las etiquetas HTML que se encuentren en los datos de este campo.

    • Acción

      Permite agregar filas al mapa o eliminarlas del mapa. El orden de las filas no es importante.

  4. (Opcional) Haga clic en Setup Maps para descargar una muestra de la fuente de datos. Los datos se examinan para determinar la idoneidad de la indexación. Esta función solo está disponible para tipos de texto y fuente.

  5. (Opcional) Haga clic en Preview para probar el funcionamiento real de la configuración. Esta función solo está disponible para tipos de texto y fuente.

  6. Haga clic Add para añadir la configuración a la página Index Connector Definitions y a la lista desplegable Index Connector Configurations en la página URL Entrypoints.

    Consulte Acerca de los puntos de entrada de URL.

  7. En la página Index Connector Definitions, haga clic en rebuild your staged site index.

  8. (Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:

Edición de una definición de conector de índice

Puede editar un conector de índice existente que haya definido.

NOTA

No todas las opciones están disponibles para cambiar, como Nombre del conector de índice o Tipo de la lista desplegable Type.

Para editar una definición de conector de índice

  1. En el menú del producto, haga clic en Settings > Crawling > Index Connector.

  2. En la página Index Connector, en el encabezado de la columna Actions, haga clic en Edit para ver el nombre de la definición del conector de índice cuya configuración desee cambiar.

  3. En la página Index Connector Edit, configure las opciones que desee.

    Consulte la tabla de opciones en Adición de una definición de conector de índice.

  4. Haga clic Save Changes.

  5. (Opcional) En la página Index Connector Definitions, haga clic en rebuild your staged site index.

  6. (Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:

Visualización de la configuración de una definición de conector de índice

Puede revisar los ajustes de configuración de una definición de conector de índice existente.

Una vez añadida la definición del conector de índice a la página Index Connector Definitions, no se puede cambiar su configuración de tipo. En su lugar, debe eliminar la definición y luego agregar una nueva.

Ver la configuración de una definición de conector de índice

  1. En el menú del producto, haga clic en Settings > Crawling > Index Connector.
  2. En la página Index Connector, en el encabezado de la columna Actions, haga clic en Edit para el nombre de la definición del conector de índice cuya configuración desee revisar o editar.

Copia de una definición de conector de índice

Puede copiar una definición de conector de índice existente para utilizarla como base para un nuevo conector de índice que desee crear.

Al copiar una definición de conector de índice, la definición copiada se desactiva de forma predeterminada. Para habilitar o "activar" la definición, debe editarla desde la página Index Connector Edit y seleccionar Enable.

Consulte Edición de la definición de un conector de índice.

Copia de una definición de conector de índice

  1. En el menú del producto, haga clic en Settings > Crawling > Index Connector.

  2. En la página Index Connector, en el encabezado de la columna Actions, haga clic en Copy para obtener un nombre de definición del conector de índice cuya configuración desee duplicar.

  3. En la página Index Connector Copy, introduzca el nuevo nombre de la definición.

  4. Haga clic Copy.

  5. (Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:

Cambio del nombre de una definición de conector de índice

Puede cambiar el nombre de una definición de conector de índice existente.

Después de cambiar el nombre de la definición, marque Settings > Crawling > URL Entrypoints. Desea asegurarse de que el nuevo nombre de definición se refleje en la lista desplegable de la página URL Entrypoints.

Consulte Adición de varios puntos de entrada de URL que desea indexar.

Cambio del nombre de una definición de conector de índice

  1. En el menú del producto, haga clic en Settings > Crawling > Index Connector.

  2. En la página Index Connector, en el encabezado de la columna Actions, haga clic en Rename para obtener el nombre de definición del conector de índice que desea cambiar.

  3. En la página Index Connector Rename, introduzca el nuevo nombre de la definición en el campo Name.

  4. Haga clic Rename.

  5. Haga clic en Settings > Crawling > URL Entrypoints. Si el nombre del conector de índice anterior está presente en la lista, elimínelo y añada la entrada con el nuevo nombre.

    Consulte Adición de varios puntos de entrada de URL que desea indexar. 1. (Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:

Eliminación de una definición de conector de índice

Puede eliminar una definición de conector de índice existente que ya no necesite ni utilice.

Eliminación de una definición de conector de índice

  1. En el menú del producto, haga clic en Settings > Crawling > Index Connector.
  2. En la página Index Connector Definitions, en el encabezado de la columna Actions, haga clic en Delete para el nombre de definición del conector de índice que desea eliminar.
  3. En la página Index Connector Delete, haga clic en Delete.

En esta página