Utilice el menú Rastreo para establecer las máscaras de fecha y URL, contraseñas, tipos de contenido, conexiones, definiciones de formulario y puntos de entrada de URL.
La mayoría de los sitios web tienen un punto de entrada o una página de inicio principal al que accede un cliente inicialmente. Este punto de entrada principal es la dirección URL desde la que el robot de búsqueda comienza a rastrear el índice. Sin embargo, si el sitio web tiene varios dominios o subdominios, o si partes del sitio no están vinculadas desde el punto de entrada principal, puede utilizar puntos de entrada de URL para agregar más puntos de entrada.
Se indexan todas las páginas del sitio web debajo de cada punto de entrada de URL especificado. Puede combinar puntos de entrada de URL con máscaras para controlar exactamente qué partes de un sitio web desea indexar. Debe volver a generar el índice del sitio web antes de que los clientes puedan ver los efectos de la configuración de puntos de entrada de URL.
El punto de entrada principal suele ser la dirección URL del sitio web que desea indexar y buscar. Puede configurar este punto de entrada principal en Configuración de cuenta.
Consulte Configuración de la cuenta.
Una vez especificado el punto de entrada de la URL principal, puede especificar, opcionalmente, puntos de entrada adicionales que desee rastrear en orden. La mayoría de las veces, especificará puntos de entrada adicionales para páginas web que no están vinculadas desde páginas bajo el punto de entrada principal. Especifique puntos de entrada adicionales cuando el sitio web abarque más de un dominio, como en el siguiente ejemplo:
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
Cada punto de entrada se clasifica con una o más de las siguientes palabras clave separadas por espacio en la siguiente tabla. Estas palabras clave afectan al modo en que se indexa la página.
Importante: Asegúrese de separar una palabra clave determinada del punto de entrada y entre sí por un espacio; una coma no es un separador válido.
Palabra clave |
Descripción |
---|---|
noindex |
Si no desea indexar el texto en la página de punto de entrada, pero sí desea seguir los vínculos de la página, agregue
Separe la palabra clave del punto de entrada con un espacio, como en el siguiente ejemplo: Esta palabra clave es equivalente a una metaetiqueta de robots con
|
noseguir |
Si desea indexar el texto en la página de punto de entrada pero no desea seguir ninguno de los vínculos de la página, agregue
Separe la palabra clave del punto de entrada con un espacio, como en el siguiente ejemplo: Esta palabra clave es equivalente a una metaetiqueta de robots con
|
formulario |
Cuando el punto de entrada es una página de inicio de sesión,
|
Consulte también Acerca de los tipos de contenido.
Consulte también Acerca del conector de índice.
Si el sitio web tiene varios dominios o subdominios y desea que se rastreen, puede utilizar puntos de entrada de URL para agregar más direcciones URL.
Para establecer el punto de entrada principal de la URL del sitio web, use Configuración de la cuenta.
Consulte Configuración de la cuenta.
Para agregar varios puntos de entrada de URL que desee indexar
En el menú del producto, haga clic en Settings > Crawling > URL Entrypoints.
En la página URL Entrypoints, en el campo Entrypoints, introduzca una dirección URL por línea.
(Opcional) En la lista desplegable Add Index Connector Configurations, seleccione un conector de índice que desee agregar como punto de entrada para la indexación.
La lista desplegable solo está disponible si ha añadido anteriormente una o más definiciones del conector de índice.
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Las máscaras de URL son patrones que determinan cuál de los documentos del sitio web indexa o no los índices del robot de búsqueda.
Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
A continuación se indican dos tipos de máscaras URL que puede utilizar:
Las máscaras de URL de inclusión indican al robot de búsqueda que indexe cualquier documento que coincida con el patrón de la máscara.
Las máscaras de exclusión de URL indican al robot de búsqueda que indexe los documentos coincidentes.
A medida que el robot de búsqueda viaja de un vínculo a otro a través de su sitio web, encuentra direcciones URL y busca máscaras que coincidan con esas direcciones URL. La primera coincidencia determina si se debe incluir o excluir esa dirección URL del índice. Si ninguna máscara coincide con una dirección URL encontrada, esa dirección URL se descarta del índice.
Las máscaras de URL de inclusión para las direcciones URL de los puntos de entrada se generan automáticamente. Este comportamiento garantiza que todos los documentos encontrados en el sitio web se indiquen. También elimina convenientemente los enlaces que "dejan" tu sitio web. Por ejemplo, si una página indexada vincula a https://www.yahoo.com, el robot de búsqueda no indexa esa dirección URL porque no coincide con la máscara de inclusión generada automáticamente por la dirección URL del punto de entrada.
Cada máscara de URL que especifique debe estar en una línea independiente.
La máscara puede especificar cualquiera de las siguientes opciones:
Una ruta completa como en https://www.mydomain.com/products.html
.
Una ruta parcial como en https://www.mydomain.com/products
.
Dirección URL que utiliza comodines como en https://www.mydomain.com/*.html
.
Expresión regular (para usuarios avanzados).
Para que una máscara sea una expresión regular, inserte la palabra clave regexp
entre el tipo de máscara ( exclude
o include
) y la máscara URL.
A continuación se muestra un ejemplo sencillo de máscara de URL de exclusión:
exclude https://www.mydomain.com/photos
Dado que este ejemplo es una máscara de URL de exclusión, cualquier documento que coincida con el patrón no está indexado. El patrón coincide con cualquier elemento encontrado, tanto archivos como carpetas, de modo que https://www.mydomain.com/photos.html
y https://www.mydomain.com/photos/index.html
, que coinciden con la dirección URL de exclusión, no se indizan. Para que coincida únicamente con los archivos de la carpeta /photos/
, la máscara de URL debe contener una barra diagonal, como en el siguiente ejemplo:
exclude https://www.mydomain.com/photos/
El siguiente ejemplo de máscara de exclusión utiliza un comodín. Indica al robot de búsqueda que pase por alto los archivos con la extensión ".pdf". El robot de búsqueda no agrega estos archivos al índice.
exclude *.pdf
A continuación se muestra una simple máscara de URL de inclusión:
include https://www.mydomain.com/news/
Solo se indexan los documentos vinculados mediante una serie de vínculos desde un punto de entrada URL o que se utilizan como puntos de entrada URL. La enumeración única de la dirección URL de un documento como una máscara de URL de inclusión no indexa un documento desvinculado. Para agregar documentos desvinculados al índice, puede utilizar la función Puntos de entrada de URL.
Consulte Acerca de los puntos de entrada de URL.
Incluir máscaras y excluir máscaras pueden funcionar juntas. Puede excluir una gran parte del sitio web de la indexación creando una máscara de URL de exclusión, pero incluyendo una o más de las páginas excluidas con una máscara de URL de inclusión. Por ejemplo, supongamos que la dirección URL del punto de entrada es la siguiente:
https://www.mydomain.com/photos/
El robot de búsqueda rastrea e indexa todas las páginas en /photos/summer/
, /photos/spring/
y /photos/fall/
(suponiendo que haya vínculos a al menos una página en cada directorio desde la carpeta photos
). Este comportamiento se produce porque las rutas de vínculo permiten al robot de búsqueda encontrar los documentos de las carpetas /summer/
, /spring/
y /fall/
, y que las direcciones URL de las carpetas coinciden con la máscara de inclusión que genera automáticamente la dirección URL del punto de entrada.
Puede elegir excluir todas las páginas de la carpeta /fall/
con una máscara de URL de exclusión como en el siguiente ejemplo:
exclude https://www.mydomain.com/photos/fall/
O bien, incluya selectivamente solo /photos/fall/redleaves4.html
como parte del índice con la siguiente máscara de URL:
include https://www.mydomain.com/photos/fall/redleaves4.html
Para que los dos ejemplos de máscara anteriores funcionen según lo previsto, la máscara de inclusión se enumera primero, como en el siguiente ejemplo:
include https://www.mydomain.com/photos/fall/redleaves4.html
exclude https://www.mydomain.com/photos/fall/
Dado que el robot de búsqueda sigue las indicaciones en el orden en que aparecen en la lista, el robot de búsqueda primero incluye /photos/fall/redleaves4.html
y luego excluye el resto de los archivos de la carpeta /fall
.
Si las instrucciones se especifican de la forma opuesta a la siguiente:
exclude https://www.mydomain.com/photos/fall/
include https://www.mydomain.com/photos/fall/redleaves4.html
Luego /photos/fall/redleaves4.html
no se incluye, aunque la máscara especifique que se incluye.
Una máscara de URL que aparece primero siempre tiene prioridad sobre una máscara de URL que aparece más adelante en la configuración de la máscara. Además, si el robot de búsqueda encuentra una página que coincide con una máscara de inclusión de URL y una máscara de exclusión de URL, la máscara que aparece primero siempre tiene prioridad.
Consulte Configuración de un índice incremental de un sitio web provisional.
Puede clasificar cada máscara de inclusión con una o más palabras clave separadas por espacio, lo que afecta a cómo se indexan las páginas coincidentes.
Una coma no es válida como separador entre la máscara y la palabra clave; solo puede utilizar espacios.
Palabra clave |
Descripción |
---|---|
noindex |
Si no desea indexar el texto en las páginas que coinciden con la máscara de dirección URL, pero desea seguir los vínculos de páginas coincidentes, agregue
El ejemplo anterior especifica que el robot de búsqueda sigue todos los vínculos de archivos con la variable
La variable
La palabra clave |
noseguir |
Si desea indexar el texto en las páginas que coinciden con la máscara de dirección URL, pero no desea seguir los vínculos de la página coincidente, agregue
La variable
La palabra clave |
regexp |
Se utiliza para incluir y excluir máscaras. Cualquier máscara de dirección URL precedida por
El robot de búsqueda excluye los archivos coincidentes, como
Si tenía la siguiente máscara de URL de expresión regular de exclusión: El robot de búsqueda no incluye ninguna dirección URL que contenga un parámetro CGI como
Si tenía lo siguiente, incluir máscara de URL de expresión regular: El robot de búsqueda sigue todos los vínculos de archivos con la extensión ".swf". La variable
La palabra clave Consulte Expresiones regulares . |
Puede utilizar URL Masks para definir qué partes del sitio web desea o no desea rastrear e indexar.
Utilice el campo Probar máscaras de URL para comprobar si un documento está o no incluido después de indexar.
Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
Para agregar máscaras de URL para indexar o no indexar partes del sitio web
En el menú del producto, haga clic en Settings > Crawling > URL Masks.
(Opcional) En la página URL Masks, en el campo Test URL Masks, introduzca una máscara de URL de prueba en el sitio web y haga clic en Test.
En el campo URL Masks, escriba include
(para agregar un sitio web que desee rastrear e indexar), o escriba exclude
(para bloquear un sitio web y evitar que se rastree e indexe), seguido de la dirección de máscara de URL.
Introduzca una dirección de máscara URL por línea. Ejemplo:
include https://www.mycompany.com/summer
include https://www.mycompany.com/spring
exclude regexp .*\.xml
exclude https://www.mycompany.com/fall
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede utilizar Máscaras de fecha para incluir o excluir archivos de los resultados de búsqueda en función de la edad del archivo.
Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
Las siguientes son dos tipos de máscaras de fecha que puede utilizar:
Incluir máscaras de fecha ("días de inclusión" y "fecha de inclusión")
Incluir archivos de índice de máscaras de fecha con fecha anterior o anterior a la fecha especificada.
Excluir máscaras de fecha ("exclude-days" y "exclude-date")
La exclusión de fechas enmascara los archivos de índice con fecha anterior o posterior a la fecha especificada.
De forma predeterminada, la fecha del archivo se determina a partir de la información de la metaetiqueta. Si no se encuentra ninguna Meta tag, la fecha de un archivo se determina a partir del encabezado HTTP que se recibe del servidor cuando el robot de búsqueda descarga un archivo.
Cada máscara de fecha que especifique debe estar en una línea independiente.
La máscara puede especificar cualquiera de las siguientes opciones:
https://www.mydomain.com/products.html
https://www.mydomain.com/products
https://www.mydomain.com/*.html
regexp
antes de la dirección URL.Las máscaras de fechas de inclusión y exclusión pueden especificar una fecha de una de las dos maneras siguientes. Las máscaras solo se aplican si los archivos coincidentes se crearon en la fecha especificada o antes de esta:
Un número de días. Por ejemplo, supongamos que la máscara de fecha es la siguiente:
exclude-days 30 https://www.mydomain.com/docs/archive/)
El número de días especificados se vuelve a contabilizar. Si el archivo tiene fecha en la fecha o antes de la fecha de llegada, se aplica la máscara.
Una fecha real con el formato AAAA-MM-DD. Por ejemplo, supongamos que la máscara de fecha es la siguiente:
include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
Si el documento coincidente tiene fecha en la fecha especificada o antes de ella, se aplica la máscara de fecha.
A continuación se muestra un ejemplo sencillo de máscara de fecha de exclusión:
exclude-days 90 https://www.mydomain.com/docs/archive
Como se trata de una máscara de fecha de exclusión, cualquier archivo que coincida con el patrón no se indexa y tiene 90 días o más. Al excluir un documento, no se indexa ningún texto y no se siguen vínculos de ese archivo. El archivo se ignora de forma efectiva. En este ejemplo, tanto los archivos como las carpetas pueden coincidir con el patrón de URL especificado. Observe que tanto https://www.mydomain.com/docs/archive.html
como https://www.mydomain.com/docs/archive/index.html
coinciden con el patrón y no se indexan si tienen 90 días o más. Para que coincida únicamente con los archivos de la carpeta /docs/archive/
, la máscara de fecha debe contener una barra diagonal como se muestra a continuación:
exclude-days 90 https://www.mydomain.com/docs/archive/
Las máscaras de fecha también se pueden utilizar con comodines. La siguiente máscara de exclusión indica al robot de búsqueda que pase por alto los archivos con la extensión ".pdf" que tengan fecha o fecha anterior al 2011-02-15. El robot de búsqueda no agrega ningún archivo coincidente a su índice.
exclude-date 2011-02-15 *.pdf
La máscara de fecha de inclusión tiene un aspecto similar, solo se añaden al índice los archivos coincidentes. El siguiente ejemplo de máscara de fecha de inclusión indica al robot de búsqueda que indexe el texto de cualquier archivo que tenga cero días o más en el área /docs/archive/manual/
del sitio web.
include-days 0 https://www.mydomain.com/docs/archive/manual/
Incluir máscaras y excluir máscaras pueden funcionar juntas. Por ejemplo, puede excluir una gran parte del sitio web de la indexación creando una máscara de fecha de exclusión, pero incluyendo una o más de las páginas excluidas con una máscara de URL de inclusión. Si la dirección URL del punto de entrada es la siguiente:
https://www.mydomain.com/archive/
El robot de búsqueda rastrea e indexa todas las páginas en /archive/summer/
, /archive/spring/
y /archive/fall/
(suponiendo que haya vínculos a al menos una página en cada carpeta de la carpeta archive
). Este comportamiento se produce porque las rutas de vínculo permiten al robot de búsqueda "encontrar" los archivos de las carpetas /summer/
, /spring/
y /fall/
y que las direcciones URL de las carpetas coinciden con la máscara de inclusión generada automáticamente por la dirección URL del punto de entrada.
Consulte Acerca de los puntos de entrada de URL.
Consulte Configuración de la cuenta.
Puede elegir excluir todas las páginas con más de 90 días de antigüedad en la carpeta /fall/
con una máscara de fecha de exclusión, como se muestra a continuación:
exclude-days 90 https://www.mydomain.com/archive/fall/
Puede incluir selectivamente solo /archive/fall/index.html
(independientemente de su antigüedad; se hace coincidir cualquier archivo de 0 días o más) como parte del índice con la siguiente máscara de fecha:
include-days 0 https://www.mydomain.com/archive/fall/index.html
Para que los dos ejemplos de máscara anteriores funcionen según lo previsto, debe incluir primero la máscara de inclusión como en el siguiente:
include-days 0 https://www.mydomain.com/archive/fall/index.html
exclude-days 90 https://www.mydomain.com/archive/fall/
Dado que el robot de búsqueda sigue las indicaciones en el orden en que se especifican, el robot de búsqueda primero incluye /archive/fall/index.html
y luego excluye el resto de los archivos de la carpeta /fall
.
Si las instrucciones se especifican de la forma opuesta a la siguiente:
exclude-days 90 https://www.mydomain.com/archive/fall/
include-days 0 https://www.mydomain.com/archive/fall/index.html
A continuación, no se incluye /archive/fall/index.html
aunque la máscara especifique que debe estarlo. Una máscara de fecha que aparece primero siempre tiene prioridad sobre una máscara de fecha que podría aparecer más adelante en la configuración de la máscara. Además, si el robot de búsqueda encuentra una página que coincide tanto con una máscara de fecha de inclusión como con una máscara de fecha de exclusión, la máscara que aparece primero siempre tiene prioridad.
Consulte Configuración de un índice incremental de un sitio web provisional.
Puede clasificar cada máscara de inclusión con una o más palabras clave separadas por espacio, lo que afecta a cómo se indexan las páginas coincidentes.
Una coma no es válida como separador entre la máscara y la palabra clave; solo puede utilizar espacios.
Palabra clave |
Descripción |
---|---|
noindex |
Si no desea indexar el texto en las páginas con fecha o antes de la fecha especificada por la máscara de inclusión, agregue
Asegúrese de separar la palabra clave de la máscara con un espacio. El ejemplo anterior especifica que el robot de búsqueda sigue todos los vínculos de archivos con la extensión ".swf" que tengan 10 días o más. Sin embargo, deshabilita la indexación de todo el texto contenido en esos archivos. Es posible que desee asegurarse de que el texto de los archivos más antiguos no esté indexado, pero siga todos los vínculos de esos archivos. En estos casos, utilice una máscara de fecha de inclusión con la palabra clave "noindex" en lugar de utilizar una máscara de fecha de exclusión. |
noseguir |
Si desea indexar el texto en las páginas con fecha o antes de la fecha especificada por la máscara de inclusión, pero no desea seguir los vínculos de la página coincidente, agregue
Asegúrese de separar la palabra clave de la máscara con un espacio. La variable
La palabra clave |
server-date |
Se utiliza para incluir y excluir máscaras. El robot de búsqueda generalmente descarga y analiza cada archivo antes de comprobar las máscaras de fecha. Este comportamiento se produce porque algunos tipos de archivo pueden especificar una fecha dentro del propio archivo. Por ejemplo, un documento HTML puede incluir metaetiquetas que establecen la fecha del archivo. Si va a excluir muchos archivos en función de su fecha y no desea cargar innecesariamente los servidores, puede usar
Esta palabra clave indica al robot de búsqueda que confíe en la fecha del archivo que devuelve el servidor en lugar de analizar cada archivo. Por ejemplo, la siguiente máscara de fecha de exclusión ignora las páginas que coinciden con la dirección URL si los documentos tienen 90 días o más, según la fecha que devuelva el servidor en los encabezados HTTP: Si la fecha devuelta por el servidor ha transcurrido 90 días o más,
No debe usar
|
regexp |
Se utiliza para incluir y excluir máscaras. Cualquier máscara de fecha precedida por
Si el robot de búsqueda encuentra archivos que coinciden con una máscara de fecha de expresión regular de exclusión, no los indexa. Si el robot de búsqueda encuentra archivos que coinciden con una máscara de fecha de expresión regular de inclusión, indexa esos documentos. Por ejemplo, supongamos que tiene la siguiente máscara de fecha: La máscara indica al robot de búsqueda que excluya los archivos coincidentes que tengan 180 días o más. Es decir, archivos que contienen la palabra "archive" en su URL. Consulte Expresiones regulares . |
Puede utilizar Máscaras de fecha para incluir o excluir archivos de los resultados de búsqueda de clientes en función de la edad de los archivos.
Utilice los campos Test Date y Test URL para comprobar si un archivo se incluye o no después del índice.
Asegúrese de reconstruir el índice del sitio para que los resultados de las máscaras de URL sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
Para agregar máscaras de fecha para indexar o no partes del sitio web
En el menú del producto, haga clic en Settings > Crawling > Date Masks.
(Opcional) En la página Date Masks, en el campo Test Date, introduzca una fecha con el formato AAAA-MM-DD (por ejemplo, 2011-07-25
); en el campo Test URL, introduzca una máscara de URL del sitio web y haga clic en Test.
En el campo Date Masks, introduzca una dirección de máscara de fecha por línea.
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Para acceder a partes del sitio web protegidas con autenticación básica HTTP, puede agregar una o más contraseñas.
Para que los clientes puedan ver los efectos de la configuración de la contraseña, debe volver a generar el índice del sitio.
Consulte Configuración de un índice incremental de un sitio web provisional.
En la página Passwords, escriba cada contraseña en una sola línea. La contraseña consiste en una dirección URL o dominio, un nombre de usuario y una contraseña, como en el siguiente ejemplo:
https://www.mydomain.com/ myname mypassword
En lugar de usar una ruta de URL, como en el ejemplo anterior, también puede especificar un dominio.
Para determinar el dominio correcto a utilizar, abra una página web protegida por contraseña con un navegador y mire el cuadro de diálogo "Introducir contraseña de red".
El nombre de territorio, en este caso, es "Mi territorio del sitio".
Con el nombre de dominio anterior, la contraseña puede tener el siguiente aspecto:
My Site Realm myusername mypassword
Si el sitio web tiene varios dominios, puede crear varias contraseñas introduciendo un nombre de usuario y una contraseña para cada dominio en una línea independiente, como en el siguiente ejemplo:
Realm1 name1 password1
Realm2 name2 password2
Realm3 name3 password3
Puede combinar contraseñas que contengan direcciones URL o reinos para que la lista de contraseñas se parezca a la siguiente:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
Realm3 name3 password3
Realm4 name4 password4
https://www.mysite.com/path1/path5 name5 password5
https://www.mysite.com/path6 name6 password6
En la lista anterior, se utiliza la primera contraseña que contiene un dominio o una dirección URL que coincide con la solicitud de autenticación del servidor. Incluso si el archivo en https://www.mysite.com/path1/path2/index.html
está en Realm3
, por ejemplo, name2
y password2
se utilizan porque la contraseña definida con la dirección URL se muestra por encima de la definida con el dominio.
Puede utilizar Contraseñas para acceder a áreas del sitio web protegidas con contraseña con fines de rastreo e indexación.
Antes de que los efectos de la contraseña sean visibles para los clientes, asegúrese de reconstruir el índice del sitio
Consulte Configuración de un índice incremental de un sitio web provisional.
Para agregar contraseñas para acceder a áreas del sitio web que requieran autenticación
En el menú del producto, haga clic en Settings > Crawling > Passwords.
En la página Passwords, en el campo Passwords, introduzca un dominio o una dirección URL, y su nombre de usuario y contraseña asociados, separados por un espacio.
Ejemplo de contraseña de dominio y contraseña de URL en líneas independientes:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
Solo añada una contraseña por línea.
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede utilizar Content Types para seleccionar qué tipos de archivos desea rastrear e indexar para esta cuenta.
Los tipos de contenido que puede elegir rastrear e indexar incluyen documentos PDF, documentos de texto, películas de Flash de Adobe, archivos de aplicaciones de Microsoft Office como Word, Excel y Powerpoint, y texto en archivos MP3. El texto que se encuentra dentro de los tipos de contenido seleccionados se busca junto con el resto del texto del sitio web.
Para que los clientes puedan ver los efectos de la configuración de Tipos de contenido, debe volver a generar el índice del sitio.
Consulte Configuración de un índice incremental de un sitio web provisional.
Si selecciona la opción Text in MP3 Music Files en la página Content Types , se rastrea un archivo MP3 y se indexa de una de las dos maneras siguientes. La primera y más común forma de hacerlo es desde una etiqueta href delimitadora en un archivo HTML como se muestra a continuación:
<a href="MP3-file-URL"></a>
La segunda forma es introducir la URL del archivo MP3 como punto de entrada de URL.
Consulte Acerca de los puntos de entrada de URL.
Un archivo MP3 se reconoce por su tipo MIME "audio/mpeg".
Tenga en cuenta que los tamaños de archivo de música MP3 pueden ser bastante grandes, aunque normalmente contienen sólo una pequeña cantidad de texto. Por ejemplo, los archivos MP3 pueden, opcionalmente, almacenar cosas como el nombre del álbum, el nombre del artista, el título de la canción, el género de la canción, el año de lanzamiento y un comentario. Esta información se almacena al final del archivo en lo que se denomina TAG. Los archivos MP3 que contienen información de TAG se indexan de la siguiente manera:
Tenga en cuenta que cada archivo MP3 que se rastrea e indexa en su sitio web cuenta como una página.
Si su sitio web contiene muchos archivos MP3 de gran tamaño, puede que exceda el límite de bytes de indexación de su cuenta. Si esto sucede, puede anular la selección Text in MP3 Music Files en la página Content Types para evitar la indexación de todos los archivos MP3 del sitio web.
Si solo desea evitar la indexación de ciertos archivos MP3 en su sitio web, puede realizar una de las siguientes acciones:
Rodee las etiquetas de anclaje que se vinculan a los archivos MP3 con etiquetas <nofollow>
y </nofollow>
. El robot de búsqueda no sigue los vínculos entre esas etiquetas.
Añada las direcciones URL de los archivos MP3 como máscaras de exclusión.
Consulte Acerca de las máscaras de URL.
Puede utilizar Content Types para seleccionar qué tipos de archivos desea rastrear e indexar para esta cuenta.
Los tipos de contenido que puede elegir rastrear e indexar incluyen documentos PDF, documentos de texto, películas de Flash de Adobe, archivos de aplicaciones de Microsoft Office como Word, Excel y Powerpoint, y texto en archivos MP3. El texto que se encuentra dentro de los tipos de contenido seleccionados se busca junto con el resto del texto del sitio web.
Para que los clientes puedan ver los efectos de la configuración de Tipos de contenido, debe volver a generar el índice del sitio.
Consulte Configuración de un índice incremental de un sitio web provisional.
Para rastrear e indexar archivos MP3 chinos, japoneses o coreanos, complete los pasos a continuación. A continuación, en Settings > Metadata > Injections, especifique el conjunto de caracteres que se utiliza para codificar los archivos MP3.
Consulte Acerca de las inyecciones.
Seleccionar tipos de contenido para rastrear e indexar
En el menú del producto, haga clic en Settings > Crawling > Content Types.
En la página Content Types, compruebe los tipos de archivo que desea rastrear e indexar en el sitio web.
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede utilizar Conexiones para agregar hasta diez conexiones HTTP que el robot de búsqueda utiliza para indexar su sitio web.
Aumentar el número de conexiones puede reducir significativamente la cantidad de tiempo que se tarda en completar un rastreo y un índice. Sin embargo, tenga en cuenta que cada conexión adicional aumenta la carga en el servidor.
Puede reducir la cantidad de tiempo que se tarda en indexar el sitio web mediante Conexiones para aumentar el número de conexiones HTTP simultáneas que utiliza el rastreador. Se pueden agregar hasta diez conexiones.
Tenga en cuenta que cada conexión adicional aumenta la carga que se coloca en el servidor.
Para agregar conexiones para aumentar la velocidad de indexación
En el menú del producto, haga clic en Settings > Crawling > Connections.
En la página Parallel Indexing Connections, en el campo Number of Connections, introduzca el número de conexiones (1-10) que desea agregar.
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede utilizar el envío de formulario para ayudarle a reconocer y procesar los formularios en su sitio web.
Durante el rastreo y la indexación del sitio web, cada formulario encontrado se compara con las definiciones de formulario agregadas. Si un formulario coincide con una definición del formulario, se envía para su indexación. Si un formulario coincide con más de una definición, el formulario se envía una vez para cada definición coincidente.
Puede utilizar Form Submission para ayudar a procesar los formularios que se reconocen en el sitio web con fines de indexación.
Asegúrese de reconstruir el índice del sitio para que los resultados de los cambios sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
Adición de definiciones de formulario para la indexación de formularios en el sitio web
En el menú del producto, haga clic en Settings > Crawling > Form Submission.
En la página Form Submission, haga clic en Add New Form.
En la página Add Form Definition, configure las opciones Form Recognition y Form Submission .
Las cinco opciones de la sección Form Recognition de la página Form Definition se utilizan para identificar los formularios de las páginas web que se pueden procesar.
Las tres opciones de la sección Form Submission se utilizan para especificar los parámetros y valores que se envían con un formulario al servidor web.
Introduzca un parámetro de reconocimiento o envío por línea. Cada parámetro debe incluir un nombre y un valor.
Opción |
Descripción |
---|---|
Reconocimiento de formularios |
|
Máscara de dirección URL de la página |
Identifique la página web o páginas que contienen el formulario. Para identificar un formulario que aparece en una sola página, introduzca la dirección URL de esa página, como en el siguiente ejemplo: Para identificar los formularios que aparecen en varias páginas, especifique una máscara de dirección URL que utilice caracteres comodín para describir las páginas. Para identificar los formularios encontrados en cualquier página ASP en También puede utilizar una expresión regular para identificar varias páginas. Especifique la variable
Palabra clave |
Máscara de URL de acción |
Identifica el atributo de acción de la variable
etiqueta Al igual que la máscara de dirección URL de la página, la máscara de dirección URL de acción puede adoptar la forma de una sola dirección URL, una dirección URL con caracteres comodín o una expresión regular. La máscara de URL puede ser cualquiera de las siguientes:
Si no desea indexar el texto en páginas identificadas por una máscara de URL o por una máscara de URL de acción, o si no desea que se sigan vínculos en esas páginas, puede usar la variable
Consulte Acerca de los puntos de entrada de URL . Consulte Acerca de las máscaras de URL . |
Máscara de nombre de formulario |
Identifica los formularios si la variable
Las etiquetas Puede utilizar un nombre simple (
Normalmente, este campo se puede dejar vacío porque los formularios no suelen tener un atributo de nombre. |
Máscara de ID de formulario |
Identifica los formularios si la variable
Las etiquetas Puede utilizar un nombre simple (
Normalmente, este campo se puede dejar vacío porque los formularios no suelen tener un atributo de nombre. |
Parámetros |
Identifique los formularios que contienen o no contienen un parámetro con nombre o un parámetro con nombre con un valor específico. Por ejemplo, para identificar un formulario que contenga un parámetro de correo electrónico preestablecido en rick_brough@mydomain.com, un parámetro de contraseña, pero no un parámetro de nombre, debe especificar la siguiente configuración de parámetro, una por línea: |
Envío de formulario |
|
Anular URL de acción |
Especifique cuándo el destino del envío del formulario es diferente del especificado en el atributo de acción del formulario. Por ejemplo, puede utilizar esta opción cuando el formulario se envíe mediante una función de JavaScript que construya un valor de URL diferente del que se encuentra en el formulario. |
Override (método) |
Especifique cuándo el destino del envío del formulario es diferente del que se utiliza en el atributo de acción del formulario y cuándo el JavaScript de envío ha cambiado el método. Los valores predeterminados de todos los parámetros de formulario (
etiquetas |
Parámetros |
Los parámetros de envío de formulario se pueden prefijar con la variable
Cuando crea un prefijo de un parámetro con
Por ejemplo, supongamos que desea enviar los siguientes parámetros:
El parámetro de envío de formulario tendría el siguiente aspecto: El atributo de método de la variable
La etiqueta Si la variable
La etiqueta |
Haga clic Add.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede editar una definición de formulario existente si ha cambiado un formulario del sitio web o si solo necesita cambiar la definición.
Tenga en cuenta que no hay ninguna función History en la página Form Submission para revertir los cambios realizados en la definición del formulario.
Asegúrese de reconstruir el índice del sitio para que los resultados de los cambios sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
Edición de una definición de formulario
En el menú del producto, haga clic en Settings > Crawling > Form Submission.
En la página Form Submission, haga clic en Edit a la derecha de la definición del formulario que desea actualizar.
En la página Edit Form Definition, configure las opciones Form Recognition y Form Submission .
Consulte la tabla de opciones en Adición de definiciones de formulario para la indexación de formularios en el sitio web.
Haga clic Save Changes.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede eliminar una definición de formulario existente si el formulario ya no existe en el sitio web o si ya no desea procesar e indexar un formulario concreto.
Tenga en cuenta que no hay ninguna función History en la página Form Submission para revertir los cambios realizados en la definición del formulario.
Asegúrese de reconstruir el índice del sitio para que los resultados de los cambios sean visibles para los clientes.
Consulte Configuración de un índice incremental de un sitio web provisional.
Eliminación de una definición de formulario
En el menú del producto, haga clic en Settings > Crawling > Form Submission.
En la página Form Submission, haga clic en Delete a la derecha de la definición del formulario que desea quitar.
Asegúrese de elegir la definición de formulario correcta que desee eliminar. No hay ningún cuadro de diálogo de confirmación de eliminación cuando hace clic en Delete en el paso siguiente.
En la página Delete Form Definition, haga clic en Delete.
(Opcional) Realice cualquiera de las siguientes acciones:
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Utilice Index Connector para definir fuentes de entrada adicionales para indexar páginas XML o cualquier tipo de fuente.
Se puede utilizar un origen de entrada de fuente de datos para acceder a contenido almacenado en un formulario diferente al que se suele descubrir en un sitio web mediante uno de los métodos de rastreo disponibles. Cada documento que se rastrea e indexa directamente corresponde a una página de contenido del sitio web. Sin embargo, una fuente de datos proviene de un documento XML o de un archivo de texto delimitado por comas o tabulaciones, y contiene la información de contenido que se va a indexar.
Un origen de datos XML consta de tablas o registros XML que contienen información que corresponde a documentos individuales. Estos documentos individuales se añaden al índice. Una fuente de datos de texto contiene registros individuales delimitados por líneas nuevas que corresponden a documentos individuales. Estos documentos individuales también se añaden al índice. En cualquier caso, una configuración de conector de índice describe cómo interpretar la fuente. Cada configuración describe dónde reside el archivo y cómo acceden a él los servidores. La configuración también describe la información de "asignación". Es decir, cómo se utilizan los elementos de cada registro para rellenar los campos de metadatos en el índice resultante.
Después de agregar una definición de conector de índice a la página Staged Index Connector Definitions, puede cambiar cualquier configuración, excepto para los valores Nombre o Tipo.
La página Index Connector muestra la siguiente información:
El nombre de los conectores de índice definidos que ha configurado y agregado.
Uno de los siguientes tipos de fuentes de datos para cada conector que ha agregado:
Indica si el conector está habilitado o no para el siguiente rastreo e indexación realizado.
La dirección del origen de datos.
Consulte también Acerca del conector de índice
Paso |
Proceso |
Descripción |
---|---|---|
1 |
Descargue la fuente de datos. |
Para las configuraciones de texto y fuente, es una descarga de archivo sencilla. |
2 |
Desglose la fuente de datos descargada en seudodocumentos individuales. |
Para Texto , cada línea de texto delimitada por líneas nuevas corresponde a un documento individual y se analiza utilizando el delimitador especificado, como una coma o una tabulación. Para Fuente , los datos de cada documento se extraen utilizando un patrón de expresión regular en el siguiente formulario: Con Asignar en la página Conector de índice Agregar , cree una copia en caché de los datos y, a continuación, cree una lista de vínculos para el buscador. Los datos se almacenan en una caché local y se rellenan con los campos configurados. Los datos analizados se escriben en la caché local. Esta caché se lee más tarde para crear los documentos HTML simples que necesita el rastreador. Por ejemplo, El elemento <title> solo se genera cuando existe una asignación al campo de metadatos Título . Del mismo modo, el elemento <body> solo se genera cuando existe una asignación al campo de metadatos Body . Importante: No se admite la asignación de valores a la metaetiqueta de URL predefinida. Para todas las demás asignaciones, se generan etiquetas <meta> para cada campo que tenga datos encontrados en el documento original. Los campos de cada documento se añaden a la caché. Para cada documento que se escribe en la caché, también se genera un vínculo como en los ejemplos siguientes: La asignación de la configuración debe tener un campo identificado como Clave principal. Esta asignación forma la clave que se utiliza cuando se recuperan datos de la caché. El rastreador reconoce el índice de la dirección URL : prefijo de esquema, que puede acceder a los datos almacenados en caché localmente. |
3 |
Rastrear el conjunto de documentos en caché. |
El índice : Los vínculos se agregan a la lista pendiente del rastreador y se procesan en la secuencia de rastreo normal. |
4 |
Procese cada documento. |
El valor de clave de cada vínculo corresponde a una entrada de la caché, por lo que al rastrear cada vínculo, los datos de ese documento se recuperan de la caché. A continuación, se "integra" en una imagen HTML que se procesa y se añade al índice. |
El proceso de indexación para la configuración XML es similar al proceso para las configuraciones de texto y fuente con los siguientes cambios y excepciones menores.
Debido a que los documentos para los rastreos XML ya están separados en archivos individuales, los pasos 1 y 2 de la tabla anterior no se aplican directamente. Si especifica una dirección URL en los campos Host Address y File Path de la página Index Connector Add, se descarga y procesa como documento HTML normal. Se espera que el documento de descarga contenga una colección de vínculos <a href="{url}"...
, cada uno de los cuales apunta a un documento XML que se procesa. Estos vínculos se convierten al siguiente formulario:
<a href="index:<ic_config_name>?url="{url}">
Por ejemplo, si la configuración de Adobe devolvía los siguientes vínculos:
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a>
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>
En la tabla anterior, el paso 3 no se aplica y el paso 4 se completa en el momento del rastreo y la indexación.
De lo contrario, puede combinar los documentos XML con otros documentos que se hayan descubierto de forma natural a través del proceso de rastreo. En estos casos, puede utilizar reglas de reescritura ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) para cambiar las direcciones URL de los documentos XML y dirigirlos al conector de índice.
Consulte Acerca de las reglas de recuperación de listas arrastradas.
Por ejemplo, se supone que tiene la siguiente regla de reescritura:
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1
Esta regla traduce cualquier URL que termine con .xml
en un vínculo de conector de índice. El rastreador reconoce y reescribe el esquema de URL index:
. El proceso de descarga se redirige a través del servidor Apache del conector de índice en el servidor principal. Cada documento descargado se examina utilizando el mismo patrón de expresión regular que se utiliza con las fuentes. Sin embargo, en este caso, el documento HTML fabricado no se guarda en la caché. En su lugar, se entrega directamente al rastreador para el procesamiento de índices.
Puede definir varias configuraciones de conector de índice para cualquier cuenta. Las configuraciones se añaden automáticamente a la lista desplegable en Settings > Crawl > URL Entrypoints como se muestra en la siguiente ilustración:
Al seleccionar una configuración en la lista desplegable, se agrega el valor al final de la lista de puntos de entrada de URL.
Mientras que las configuraciones de conector de índice desactivadas se añaden a la lista desplegable, no se pueden seleccionar. Si selecciona la misma configuración del conector de índice por segunda vez, se añade al final de la lista y se elimina la instancia anterior.
Para especificar un punto de entrada del conector de índice para un rastreo incremental, puede agregar entradas con el siguiente formato:
index:<indexconnector_configuration_name>
El rastreador procesa cada entrada añadida si se encuentra en la página Conectores de índice y está habilitada.
Nota: Dado que la URL de cada documento se construye utilizando el nombre de configuración del conector de índice y la clave principal del documento, asegúrese de utilizar el mismo nombre de configuración del conector de índice al realizar actualizaciones incrementales. Al hacerlo, Adobe Search&Promote permite actualizar correctamente los documentos indexados anteriormente.
Consulte también Acerca de los puntos de entrada de URL.
El uso de mapas de configuración al añadir un conector de índice
En el momento de agregar un conector de índice, puede utilizar la función Setup Maps para descargar una muestra de la fuente de datos. Los datos se examinan para determinar la idoneidad de la indexación.
Si elige el tipo de conector de índice... |
La función de mapas de configuración... |
---|---|
Texto |
Determina el valor del delimitador probando primero las pestañas y luego las barras verticales ( | ) y finalmente comas ( , ). Si ya especificó un valor de delimitador antes de hacer clic en Mapas de configuración , se utilizará ese valor en su lugar. El esquema que mejor se adapta permitirá rellenar los campos de mapa con suposiciones en los valores de campo y etiqueta adecuados. Además, se muestra un muestreo de los datos analizados. Asegúrese de seleccionar Encabezados en la primera fila si sabe que el archivo incluye una fila de encabezado. La función de configuración utiliza esta información para identificar mejor las entradas de mapa resultantes. |
Fuente |
Descarga el origen de datos y realiza un análisis XML sencillo. Los identificadores XPath resultantes se muestran en las filas Tag de la tabla Map y valores similares en Fields. Estas filas solo identifican los datos disponibles y no generan las definiciones XPath más complicadas. Sin embargo, sigue siendo útil porque describe los datos XML e identifica los valores de Itemtag.
Nota: La función de mapas de configuración descarga el origen XML completo para realizar su análisis. Si el archivo es grande, esta operación podría agotarse. Cuando se realiza correctamente, esta función identifica todos los elementos XPath posibles, muchos de los cuales no son deseables de usar. Asegúrese de examinar las definiciones de Mapa resultantes y eliminar las que no necesite o desee. |
XML |
Descarga la dirección URL de un documento individual representativo, no la lista de vínculos principal. Este documento único se analiza utilizando el mismo mecanismo que se utiliza con las fuentes y se muestran los resultados. Antes de hacer clic en Agregar para guardar la configuración, asegúrese de volver a cambiar la dirección URL al documento de la lista de vínculos principal. |
Importante: Es posible que la función de mapas de configuración no funcione para grandes conjuntos de datos XML porque su analizador de archivos intenta leer todo el archivo en la memoria. Como resultado, podría experimentar una condición de falta de memoria. Sin embargo, cuando el mismo documento se procesa en el momento de la indexación, no se lee en la memoria. En su lugar, los documentos grandes se procesan "sobre la marcha" y no se leen en la memoria por completo primero.
El uso de Vista previa al añadir un conector de índice
En el momento de agregar un conector de índice, puede utilizar la función Preview para validar los datos, como si lo estuviera guardando. Ejecuta una prueba con la configuración, pero sin guardar la configuración en la cuenta. La prueba accede al origen de datos configurado. Sin embargo, escribe la caché de descarga en una ubicación temporal; no entra en conflicto con la carpeta de caché principal que utiliza el rastreador de indexación.
La vista previa solo procesa un valor predeterminado de cinco documentos, tal como está controlado por Acct:IndexConnector-Preview-Max-Documents. Los documentos mostrados en la vista previa se muestran en el formulario de origen, a medida que se presentan al rastreador de indexación. La visualización es similar a la función "Ver fuente" de un explorador web. Puede navegar por los documentos del conjunto de vista previa utilizando vínculos de navegación estándar.
La vista previa no admite configuraciones XML porque estos documentos se procesan directamente y no se descargan en la caché.
Cada configuración de conector de índice define un origen de datos y asignaciones para relacionar los elementos de datos definidos para ese origen con los campos de metadatos del índice.
Antes de que los efectos de la definición nueva y habilitada sean visibles para los clientes, reconstruya el índice del sitio.
Adición de una definición de conector de índice
En el menú del producto, haga clic en Settings > Crawling > Index Connector.
En la página Stage Index Connector Definitions, haga clic en Add New Index Connector.
En la página Index Connector Add, configure las opciones de conector que desee. Las opciones disponibles dependen del Type que haya seleccionado.
Opción |
Descripción |
---|---|
Nombre |
Nombre exclusivo de la configuración del conector de índice. Puede utilizar caracteres alfanuméricos. También se permiten los caracteres "_" y "-". |
Tipo |
La fuente de los datos. El tipo de fuente de datos que seleccione afecta a las opciones resultantes que están disponibles en la página Agregar Conector de índice. Puede elegir entre las siguientes opciones:
|
Tipo de fuente de datos: Texto |
|
Habilitado |
Activa la configuración para rastrear e indexar. O bien, puede desactivar la configuración para evitar el rastreo y la indexación. Nota: Las configuraciones del conector de índice desactivadas se omiten si se encuentran en una lista de puntos de entrada. |
Dirección del host |
Especifica la dirección del host del servidor donde se encuentran los datos. Si lo desea, puede especificar una ruta URI completa (Uniform Resource Identifier) al documento de origen de datos como en los ejemplos siguientes: o El URI se desglosa en las entradas adecuadas para los campos Dirección de host, Ruta de archivo, Protocolo y, opcionalmente, Nombre de usuario y Contraseña. Especifica la dirección IP o la dirección URL del sistema host en el que se encuentra el archivo de origen de datos. |
Ruta de archivo |
Especifica la ruta al archivo de texto plano simple, delimitado por comas, delimitado por tabulaciones u otro archivo de formato delimitado por tabulaciones. La ruta es relativa a la raíz de la dirección del host. |
Ruta de archivo incremental |
Especifica la ruta al archivo de texto plano simple, delimitado por comas, delimitado por tabulaciones u otro archivo de formato delimitado por tabulaciones. La ruta es relativa a la raíz de la dirección del host. Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Si no se especifica ningún archivo, se utilizará el archivo que aparece en Ruta de archivo . |
Ruta de archivo vertical |
Especifica la ruta al archivo de texto plano simple, delimitado por comas, delimitado por tabulaciones u otro archivo de formato delimitado por tabulaciones que se utilizará durante una actualización vertical. La ruta es relativa a la raíz de la dirección del host. Este archivo, si se especifica, se descarga y procesa durante las operaciones de actualización vertical. Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso. |
Elimina la ruta del archivo |
Especifica la ruta al archivo de texto plano simple, que contiene un valor de identificador de documento único por línea. La ruta es relativa a la raíz de la dirección del host. Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Los valores que se encuentran en este archivo se utilizan para construir solicitudes de "eliminación" para eliminar documentos indexados anteriormente. Los valores de este archivo deben corresponder a los valores encontrados en los archivos de ruta de archivo completa o incremental, en la columna identificada como Clave principal . Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso. |
Protocolo |
Especifica el protocolo que se utiliza para acceder al archivo. Puede elegir entre las siguientes opciones:
|
Tiempo de espera |
Especifica el tiempo de espera, en segundos, para las conexiones FTP, SFTP, HTTP o HTTPS. Este valor debe estar entre 30 y 300. |
Reintentos |
Especifica el número máximo de reintentos de conexiones FTP, SFTP, HTTP o HTTPS fallidas. Este valor debe estar entre 0 y 10. Un valor de cero (0) impedirá los intentos de reintento. |
Codificación |
Especifica el sistema de codificación de caracteres que se utiliza en el archivo de origen de datos especificado. |
Delimitador |
Especifica el carácter que desea utilizar para delinear cada campo del archivo de origen de datos especificado. El carácter de coma ( , ) es un ejemplo de delimitador. La coma actúa como delimitador de campo que ayuda a separar los campos de datos en el archivo de origen de datos especificado. Seleccione la pestaña ? para utilizar el carácter de tabulación horizontal como delimitador. |
Encabezados en primera fila |
Indica que la primera fila del archivo de origen de datos contiene solo información de encabezado, no datos. |
Número mínimo de documentos para la indexación |
Si se establece en un valor positivo, especifica el número mínimo de registros esperados en el archivo descargado. Si se reciben menos registros, se anula la operación de índice. Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso. Nota: Esta función solo se utiliza durante las operaciones de índice completas. |
Mapa |
Especifica las asignaciones de columna a metadatos, utilizando números de columna.
|
Tipo de fuente de datos: Fuente |
|
Habilitado |
Activa la configuración para rastrear e indexar. O bien, puede desactivar la configuración para evitar el rastreo y la indexación. Nota: Las configuraciones del conector de índice desactivadas se omiten si se encuentran en una lista de puntos de entrada. |
Dirección del host |
Especifica la dirección IP o la dirección URL del sistema host en el que se encuentra el archivo de origen de datos. |
Ruta de archivo |
Especifica la ruta al documento XML principal que contiene varias "filas" de información. La ruta es relativa a la raíz de la dirección del host. |
Ruta de archivo incremental |
Especifica la ruta al documento XML incremental que contiene varias "filas" de información. La ruta es relativa a la raíz de la dirección del host. Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Si no se especifica ningún archivo, se utilizará el archivo que aparece en Ruta de archivo . |
Ruta de archivo vertical |
Especifica la ruta al documento XML que contiene varias "filas" dispersas de información que se utilizarán durante una actualización vertical. La ruta es relativa a la raíz de la dirección del host. Este archivo, si se especifica, se descarga y procesa durante las operaciones de actualización vertical. Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso. |
Elimina la ruta del archivo |
Especifica la ruta al archivo de texto plano simple, que contiene un valor de identificador de documento único por línea. La ruta es relativa a la raíz de la dirección del host. Este archivo, si se especifica, se descarga y procesa durante las operaciones del Índice incremental. Los valores que se encuentran en este archivo se utilizan para construir solicitudes de "eliminación" para eliminar documentos indexados anteriormente. Los valores de este archivo deben corresponder a los valores encontrados en los archivos de ruta de archivo completa o incremental, en la columna identificada como Clave principal . Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso. |
Protocolo |
Especifica el protocolo que se utiliza para acceder al archivo. Puede elegir entre las siguientes opciones:
|
Itemtag |
Identifica el elemento XML que puede utilizar para identificar líneas XML individuales en el archivo de origen de datos especificado. Por ejemplo, en el siguiente fragmento Feed de un documento XML de Adobe, el valor Itemtag es registro : |
Número mínimo de documentos para la indexación |
Si se establece en un valor positivo, especifica el número mínimo de registros esperados en el archivo descargado. Si se reciben menos registros, se anula la operación de índice. Nota: Esta función no está activada de forma predeterminada. Póngase en contacto con el soporte técnico para activar la función para su uso. Nota: Esta función solo se utiliza durante las operaciones de índice completas. |
Mapa |
Permite especificar asignaciones de elementos XML a metadatos mediante expresiones XPath.
|
Tipo de fuente de datos: XML |
|
Habilitado |
Activa la configuración para rastrear e indexar. O bien, puede desactivar la configuración para evitar el rastreo y la indexación. Nota: Las configuraciones del conector de índice desactivadas se omiten si se encuentran en una lista de puntos de entrada. |
Dirección del host |
Especifica la dirección URL del sistema host en el que se encuentra el archivo de origen de datos. |
Ruta de archivo |
Especifica la ruta al documento XML principal que contiene los vínculos (
La ruta es relativa a la raíz de la dirección del host. |
Protocolo |
Especifica el protocolo que se utiliza para acceder al archivo. Puede elegir entre las siguientes opciones:
Nota: La configuración de Protocolo solo se utiliza cuando hay información especificada en los campos Dirección del host y/o Ruta de archivo . Los documentos XML individuales se descargan mediante HTTP o HTTPS, según sus especificaciones de URL. |
Itemtag |
Identifica el elemento XML que define una "fila" en el archivo de origen de datos especificado. |
Mapa |
Permite especificar asignaciones de columna a metadatos mediante números de columna.
|
(Opcional) Haga clic en Setup Maps para descargar una muestra de la fuente de datos. Los datos se examinan para determinar la idoneidad de la indexación. Esta función solo está disponible para tipos de texto y fuente.
(Opcional) Haga clic en Preview para probar el funcionamiento real de la configuración. Esta función solo está disponible para tipos de texto y fuente.
Haga clic Add para añadir la configuración a la página Index Connector Definitions y a la lista desplegable Index Connector Configurations en la página URL Entrypoints.
Consulte Acerca de los puntos de entrada de URL.
En la página Index Connector Definitions, haga clic en rebuild your staged site index.
(Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede editar un conector de índice existente que haya definido.
No todas las opciones están disponibles para cambiar, como Nombre del conector de índice o Tipo de la lista desplegable Type.
Para editar una definición de conector de índice
En el menú del producto, haga clic en Settings > Crawling > Index Connector.
En la página Index Connector, en el encabezado de la columna Actions, haga clic en Edit para ver el nombre de la definición del conector de índice cuya configuración desee cambiar.
En la página Index Connector Edit, configure las opciones que desee.
Consulte la tabla de opciones en Adición de una definición de conector de índice.
Haga clic Save Changes.
(Opcional) En la página Index Connector Definitions, haga clic en rebuild your staged site index.
(Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede revisar los ajustes de configuración de una definición de conector de índice existente.
Una vez añadida la definición del conector de índice a la página Index Connector Definitions, no se puede cambiar su configuración de tipo. En su lugar, debe eliminar la definición y luego agregar una nueva.
Ver la configuración de una definición de conector de índice
Puede copiar una definición de conector de índice existente para utilizarla como base para un nuevo conector de índice que desee crear.
Al copiar una definición de conector de índice, la definición copiada se desactiva de forma predeterminada. Para habilitar o "activar" la definición, debe editarla desde la página Index Connector Edit y seleccionar Enable.
Consulte Edición de la definición de un conector de índice.
Copia de una definición de conector de índice
En el menú del producto, haga clic en Settings > Crawling > Index Connector.
En la página Index Connector, en el encabezado de la columna Actions, haga clic en Copy para obtener un nombre de definición del conector de índice cuya configuración desee duplicar.
En la página Index Connector Copy, introduzca el nuevo nombre de la definición.
Haga clic Copy.
(Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede cambiar el nombre de una definición de conector de índice existente.
Después de cambiar el nombre de la definición, marque Settings > Crawling > URL Entrypoints. Desea asegurarse de que el nuevo nombre de definición se refleje en la lista desplegable de la página URL Entrypoints.
Consulte Adición de varios puntos de entrada de URL que desea indexar.
Cambio del nombre de una definición de conector de índice
En el menú del producto, haga clic en Settings > Crawling > Index Connector.
En la página Index Connector, en el encabezado de la columna Actions, haga clic en Rename para obtener el nombre de definición del conector de índice que desea cambiar.
En la página Index Connector Rename, introduzca el nuevo nombre de la definición en el campo Name.
Haga clic Rename.
Haga clic en Settings > Crawling > URL Entrypoints. Si el nombre del conector de índice anterior está presente en la lista, elimínelo y añada la entrada con el nuevo nombre.
Consulte Adición de varios puntos de entrada de URL que desea indexar. 1. (Opcional) En la página Index Connector Definitions, realice una de las acciones siguientes:
Haga clic en History para revertir cualquier cambio que haya realizado.
Consulte Uso de la opción Historial.
Haga clic Live.
Haga clic Push Live.
Consulte Inserción de la configuración del escenario en directo.
Puede eliminar una definición de conector de índice existente que ya no necesite ni utilice.
Eliminación de una definición de conector de índice