Acerca del índice de secuencias de comandos

Con Índice de secuencias de comandos puede escribir, actualizar y mantener opciones de indexación incrementales sin necesidad de iniciar sesión. El robot de búsqueda lee instrucciones de un archivo de texto alojado en el servidor.

Uso del índice de secuencias de comandos

Acerca de la configuración de la indexación incremental mediante secuencias de comandos

Para utilizar índice con secuencias de comandos, utilice la página Configuración de índice incremental con secuencias de comandos para especificar la URL de un archivo de secuencia de comandos (un archivo de texto sin formato) que se encuentra en el servidor. Por ejemplo, https://www.mysite.com/indexlist.txt. A medida que el sitio cambia, puede agregar bloques de comandos al archivo de texto de forma manual o automática (con una secuencia de comandos desencadenada por la llegada de información desde una fuente de noticias, un ticker de bolsa u otro archivo modificado).

Cuando comienza el índice incremental con secuencias de comandos, el robot de búsqueda lee el archivo de texto y ejecuta los nuevos comandos que se encuentran en ese archivo. De forma predeterminada, el robot de búsqueda procesa sólo los nuevos comandos, que están determinados por la fecha del archivo. A menos que marque Clear Date en el momento de configurar el índice de secuencias de comandos, el robot de búsqueda "recuerda" el especificador de fechas del bloque procesado más recientemente.

Acerca del archivo de secuencias de comandos

El archivo de secuencia de comandos que se especifica en la URL es un archivo de texto sin formato que se encuentra en el servidor. Puede utilizar retornos de carro, fuentes de línea o ambos para la secuencia final de línea. Una línea en blanco contiene cero o más caracteres de espacio en blanco seguidos de una secuencia final de línea. Todos los comandos no distinguen entre mayúsculas y minúsculas.

El archivo de texto está organizado en bloques que describen la información que utiliza el robot de búsqueda cuando realiza un índice incremental con secuencias de comandos.

Los bloques se ordenan por fecha, con los bloques más antiguos en la parte superior del archivo de texto y los bloques más recientes en la parte inferior. Cada bloque comienza con una sola línea date-command y un comando date-specifier, y termina con un separador de línea en blanco como en el siguiente ejemplo de bloque (entre varios comandos):

Se requiere un cero inicial para todas las fechas ordinales inferiores a la décima cuando se utiliza el estilo HTTP 1.1. Por ejemplo, el 6 de noviembre es el 6 de noviembre, no el 6.

Comando

Descripción

date-command

La primera línea de cada bloque inicio con uno de los dos comandos de fecha:

  • date

    Utilice el comando "date" para indicar que el especificador de fecha constará de un día, una fecha, una hora y una zona horaria.

  • "Segundos"

    Utilice segundos para indicar que el especificador de fecha constará de una hora en segundos epoch (por ejemplo, 784111777). Cuando utilice segundos , asegúrese de que el número de segundos aumenta entre bloques.

date-specifier

El comando date-specifier generalmente registra la fecha y la hora ordinales (comando date) o la hora en epoch seconds (comando seconds) que la información del bloque se agregó al archivo. Por ejemplo:

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

Se requiere un cero inicial para todas las fechas ordinales inferiores a la décima cuando se utiliza el estilo HTTP 1.1. Por ejemplo, el 6 de noviembre es el 6 de noviembre, no el 6.

El robot de búsqueda "recuerda" el especificador de fecha del bloque procesado más recientemente y sólo indexa la información que considera "más reciente". (El tiempo real no le importa al robot de búsqueda. En cambio, el tiempo en relación con otros tiempos procesados anteriormente es lo que importa).

Después de que el robot de búsqueda lea un bloque con un especificador de fecha de 10:00 p.m., por ejemplo, no lee ningún bloque que registre tiempos antes de las 10:00 p.m., independientemente de cuándo se ejecute la operación de índice. En el peor de los casos, podría introducir erróneamente el año "2040" en lugar de "2004" en el especificador de fechas. En tal caso, el robot de búsqueda indexa el bloque 2040 durante la siguiente operación de indexación y luego se niega a leer cualquier otro bloque de información (a menos que uno sea posterior a 2040). Si esto ocurriera, elimine todos los bloques procesados anteriormente del archivo de texto, haga clic en Borrar fecha y, a continuación, implemente la acción.

línea de comentarios

Comience las líneas de comentarios con el carácter "#".

Cada línea de comentarios debe ser una línea propia; no se pueden escribir comentarios de fin de línea.

Una línea de comentarios no se considera una línea en blanco. También puede aparecer en cualquier parte de un bloque, incluso antes de un comando date o seconds, como en el siguiente ejemplo:

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-command

Cada bloque de texto puede contener tantos comandos de acción como desee. Las siguientes opciones de acción-comando corresponden a las de indexación incremental estándar:

  • add

    Se utiliza con URL. El robot de búsqueda solo indexa las direcciones URL especificadas que han cambiado desde la última operación de indexación. Además, el robot de búsqueda sigue vínculos que están contenidos dentro de documentos especificados e indexa solamente aquellos documentos que han cambiado.

    Puede seguir la dirección URL con nofollow o noindex palabras clave como en el siguiente ejemplo:

    add https://www.mydomain.com/ noindex

  • update

    Se utiliza con máscara de URL. El robot de búsqueda busca y actualiza todos los documentos que coinciden con la máscara de dirección URL especificada.

    Puede seguir la dirección URL con nofollow o noindex palabras clave como en el siguiente ejemplo:

    update https://www.mydomain.com/products/

  • include ni exclude

    Se utiliza con máscara de URL. El robot de búsqueda busca e indexa ("incluir") o ignora ("excluir") documentos según el tipo de máscara especificada.

    Por ejemplo,

    include https://www.mydomain.com/products/household/lightbulbs*.html

    o

    exclude https://www.mydomain.com/archive/

  • include-date ni exclude-date

    Se utiliza con máscara de URL. El robot de búsqueda busca e indexa ("incluir") o ignora ("excluir") documentos en función tanto de la dirección URL como de la fecha de documentos. Están disponibles los siguientes tipos de máscaras:

    • include-days NNN

      El robot de búsqueda indexa todos los documentos que coinciden con la máscara de dirección URL especificada y que son NNN días o más antiguos.

      Puede seguir la máscara de dirección URL con las palabras clave nofollow , noindex y/o server-date .

    • include-date YYYY-MM-DD

      El robot de búsqueda indexa todos los documentos que coinciden con la máscara de dirección URL especificada y que son tan antiguos o antiguos como la fecha AAAA-MM-DD, donde "AAAA" es el año de 4 dígitos, "MM" es el mes de uno o dos dígitos (1-12) y "DD" es el día de uno o dos dígitos (1-31).

      Puede seguir la máscara de dirección URL con las palabras clave nofollow , noindex y/o server-date .

    • exclude-days NNN

      Deshabilita la indexación de todos los documentos que coinciden con la máscara de dirección URL especificada y que son NNN días o más antiguos.

      Puede seguir la máscara de dirección URL con la palabra clave server-date .

    • exclude-date YYYY-MM-DD

      Deshabilita la indexación de todos los documentos que coinciden con la máscara de dirección URL especificada y que son tan antiguos o antiguos como la fecha AAAA-MM-DD.

      Puede seguir la máscara de dirección URL con la palabra clave server-date .

  • delete

    Especifique las direcciones URL. El robot de búsqueda elimina los documentos del índice identificados por la dirección URL.

  • deletemask

    El robot de búsqueda elimina documentos del índice que coinciden con la máscara de dirección URL especificada.

Consulte también Acerca de las máscaras de URL.

Ejemplo de archivo de secuencia de comandos

En el siguiente ejemplo de archivo de secuencia de comandos, el robot de búsqueda procesa los bloques siempre que los especificadores de fecha posterior a la fecha del especificador de fecha del bloque procesado más recientemente. Si ese es el caso, se producen las siguientes operaciones de indexación:

  • Elimina y2k-problems.html del índice.

  • Añade no-y2k-problems.html al índice de búsqueda y no sigue ninguno de los vínculos de no-y2k-problems.html.

  • Durante el rastreo, excluya las direcciones URL que coincidan con housewares.htm y lightfixtures.html del índice de búsqueda.

  • Incluya todos los demás directorios y documentos en www.mydomain.com.

  • Actualice todos los documentos dentro de los directorios products y information, rastreando e indexando todos los vínculos subsidiarios que han cambiado desde la última operación de indexación.

  • Durante el rastreo, excluya las direcciones URL de la sección archive del sitio web si tienen fecha el 1 de enero de 1999 o antes de esa fecha.

  • Excluya las direcciones URL que coinciden con housewares.html y lightfixtures.html del índice de búsqueda.

  • Indique los archivos en el directorio help, pero no rastree ni indexe ningún vínculo de esos archivos.

  • Arrastre e indexe cualquier otro archivo encontrado para www.mydomain.com.

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configuración de un índice incremental con secuencias de comandos

Puede especificar una secuencia de comandos que haya creado y que escriba, actualice y mantenga un índice incremental sin necesidad de iniciar sesión. El robot de búsqueda lee instrucciones del archivo de texto alojado en el servidor para realizar el índice incremental.

Para configurar un índice incremental con secuencias de comandos

  1. En el menú del producto, haga clic en Index > Scripted Index > Configuration.

  2. En la página Scripted Incremental Index Configuration, en Script File URL, introduzca la dirección URL del archivo de texto que se encuentra en el servidor.

    Consulte Acerca del índice de secuencias de comandos.

  3. (Opcional) Compruebe Clear Date si no desea que el robot de búsqueda "recuerde" el especificador de fecha del bloque procesado más recientemente.

    De forma predeterminada, el robot de búsqueda procesa sólo los bloques nuevos de comandos que se encuentran en el archivo de texto, que se determina por la fecha del archivo. Si no desea el valor predeterminado, marque Clear Date.

  4. Haga clic Save Changes.

  5. (Opcional) Realice una de las siguientes acciones:

Configuración de la programación del índice incremental con secuencias de comandos para un sitio Web activo

Puede programar la indexación incremental mediante secuencias de comandos para que se produzca a intervalos regulares durante todo el día.

La hora base que seleccione es local según la zona horaria configurada en Configuración de cuenta.

Consulte Configuración de la cuenta.

Los servidores Web suelen programarse para que no funcionen por mantenimiento a media noche. Si el servidor está inactivo durante un tiempo de índice programado, el proceso de indexación fallará. Asegúrese de seleccionar una hora del día cuando el servidor web esté disponible.

La programación de índice solo se aplica al índice activo; no se pueden programar índices incrementales escalonados.

Definición de la programación de índice incremental con secuencias de comandos para un sitio web activo

  1. En el menú del producto, haga clic en Index > Scripted Index > Live Schedule.
  2. En la página Scripted Incremental Index Schedule, en la lista desplegable Read the Scripted Incrementally Indexing File, seleccione la frecuencia con la que desea que se ejecute el archivo de texto de índice incremental con secuencias de comandos, en horas o minutos.
  3. En la lista desplegable Base Time, seleccione la hora de inicio en la que desea volver a generar un nuevo índice incremental con secuencias de comandos.
  4. Haga clic Save Changes.

Ejecución de un índice incremental mediante secuencias de comandos de un sitio Web activo o en etapas

Puede utilizar el Índice incremental con secuencias de comandos para indexar "partes" del sitio web en vivo o en etapas, como una colección de páginas que se cambian con frecuencia, sin necesidad de iniciar sesión.

Para utilizar esta función, asegúrese de que ha configurado un archivo de texto de índice incremental con secuencias de comandos.

Consulte Configuración de un índice incremental con secuencias de comandos.

Ejecutar un índice incremental con secuencias de comandos de un sitio web activo o en un sitio web en etapas

  1. En el menú del producto, realice una de las siguientes acciones:

    • Haga clic en Index > Scripted Index > Live Index.
    • Haga clic en Index > Scripted Index > Staged Index.
  2. Haga clic Scripted Index Now.

  3. (Opcional) Si se producen errores de indexación, haga clic en View Errors para vista del registro asociado.

Visualización del registro de índice incremental con secuencias de comandos de un sitio Web activo o en etapas

Cuando se completa un índice completo de secuencia de comandos activo o un índice escalonado de secuencia de comandos completa, puede vista su registro asociado para solucionar cualquier error que se haya producido.

No puede exportar registros ni guardarlos. Sin embargo, el registro permanece disponible para su visualización hasta que se produzca el nuevo índice.

Vista del registro de índice incremental de un sitio Web activo o en un sitio Web en etapas

  1. En el menú del producto, realice una de las siguientes acciones:

    • Haga clic en Index > Scripted Index > Live Log.

    • Haga clic en Index > Scripted Index > Staged Log.

  2. En la página de registro, en la parte superior o inferior, realice una de las siguientes acciones:

    • Utilice las opciones de navegación First, Prev, Next, Last o Go to line para moverse por el registro.

    • Utilice las opciones de visualización Errors only, Wrap line o Show para refinar lo que ve.

En esta página