Acerca del índice de secuencias de comandos

Con Índice de secuencias de comandos puede escribir, actualizar y mantener opciones de indexación incrementales sin necesidad de iniciar sesión. El robot de búsqueda lee instrucciones de un archivo de texto alojado en el servidor.

Uso del índice de secuencias de comandos

Acerca de la configuración de la indexación incremental con secuencias de comandos

Para utilizar el índice con secuencias de comandos, utilice la página Configuración del índice incremental con secuencias de comandos para especificar la URL de un archivo de secuencia de comandos (un archivo de texto sin formato) que se encuentra en el servidor. Por ejemplo, https://www.mysite.com/indexlist.txt. A medida que el sitio cambie, puede agregar bloques de comandos al archivo de texto de forma manual o automática (con un script activado por la llegada de información de un suministro de noticias, un ticker de stock u otro archivo alterado).

Cuando comienza el índice incremental con secuencias de comandos, el robot de búsqueda lee el archivo de texto y ejecuta los nuevos comandos que se encuentran en ese archivo. De forma predeterminada, el robot de búsqueda procesa sólo los nuevos comandos, que están determinados por la fecha del archivo. A menos que marque Clear Date en el momento de configurar el índice de secuencias de comandos, el robot de búsqueda "recuerda" el especificador de fechas del bloque procesado más recientemente.

Acerca del archivo de script

El archivo de secuencia de comandos especificado en la URL es un archivo de texto sin formato que se encuentra en el servidor. Puede utilizar retornos de carro, fuentes de línea o ambos para la secuencia de fin de línea. Una línea en blanco contiene cero o más caracteres de espacio en blanco seguidos de una secuencia de fin de línea. Todos los comandos no distinguen entre mayúsculas y minúsculas.

El archivo de texto está organizado en bloques que describen la información que utiliza el robot de búsqueda cuando realiza un índice incremental con secuencias de comandos.

Los bloques se ordenan por fecha, con los bloques más antiguos en la parte superior del archivo de texto y los bloques más recientes en la parte inferior. Cada bloque comienza con un comando date-command de una sola línea y un comando date-specifier, y termina con un separador de línea en blanco como en el siguiente ejemplo de bloque (entre hay varios comandos):

Se requiere un cero inicial para todas las fechas ordinales inferiores a la décima cuando se utiliza el estilo HTTP 1.1. Por ejemplo, el 6 de noviembre es el 6 de noviembre, no el 6 de noviembre.

Comando

Descripción

date-command

La primera línea de cada bloque comienza con uno de los dos comandos de fecha:

  • date

    Utilice el comando "date" para indicar que el especificador de fecha estará formado por un día, una fecha, una hora y una zona horaria.

  • "Segundos"

    Utilice segundos para indicar que el especificador de fecha constará de una hora en segundos de época (por ejemplo, 784111777). Cuando utilice segundos , asegúrese de que el número de segundos aumenta entre bloques.

date-specifier

El comando date-specifier generalmente registra la fecha y la hora ordinales (comando date) o la hora en segundos epoch (comando seconds) que la información de bloque se agregó al archivo. Por ejemplo:

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

Se requiere un cero inicial para todas las fechas ordinales inferiores a la décima cuando se utiliza el estilo HTTP 1.1. Por ejemplo, el 6 de noviembre es el 6 de noviembre, no el 6 de noviembre.

El robot de búsqueda "recuerda" el especificador de fecha del bloque procesado más recientemente y solo indexa la información que considera "más reciente". (El tiempo real no le importa al robot de búsqueda. En cambio, lo que importa es el tiempo en relación con otros tiempos procesados anteriormente).

Por ejemplo, después de que el robot de búsqueda lea un bloque con un especificador de fecha de 10:00 p.m., no lee ningún bloque que registre tiempos antes de las 22:00, independientemente del momento en que se ejecute la operación de índice. En el peor de los casos, podría introducir erróneamente el año "2040" en lugar de "2004" en el especificador de fechas. En tal caso, el robot de búsqueda indexa el bloque 2040 durante la siguiente operación de indexación y luego se rehúsa a leer cualquier otro bloque de información (a menos que uno sea posterior a 2040). Si esto debería suceder, elimine todos los bloques procesados anteriormente del archivo de texto, haga clic en Borrar fecha y, a continuación, instálelo en vivo.

línea de comentarios

Empiece las líneas de comentario con el carácter "#".

Cada línea de comentarios debe ser una línea propia; no puede escribir comentarios al final de línea.

Una línea de comentario no se considera una línea en blanco. También puede aparecer en cualquier lugar de un bloque, incluso antes de un comando date o seconds como en el siguiente ejemplo:

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-command

Cada bloque de texto puede contener tantos comandos de acción como desee. Las siguientes opciones de acción-comando corresponden a las de la indexación incremental estándar:

  • add

    Se utiliza con la dirección URL. El robot de búsqueda solo indexa las direcciones URL especificadas que han cambiado desde la última operación de indexación. Además, el robot de búsqueda sigue vínculos que están contenidos dentro de documentos especificados e indexa solamente aquellos documentos que han cambiado.

    Puede seguir la dirección URL con nofollow o noindex palabras clave como en el siguiente ejemplo:

    add https://www.mydomain.com/ noindex

  • update

    Se utiliza con máscara de URL. El robot de búsqueda encuentra y actualiza todos los documentos que coinciden con la máscara de dirección URL especificada.

    Puede seguir la dirección URL con nofollow o noindex palabras clave como en el siguiente ejemplo:

    update https://www.mydomain.com/products/

  • include ni exclude

    Se utiliza con máscara de URL. El robot de búsqueda encuentra e indexa ("incluir") o ignora ("excluir") documentos según el tipo de máscara especificada.

    Por ejemplo,

    include https://www.mydomain.com/products/household/lightbulbs*.html

    o

    exclude https://www.mydomain.com/archive/

  • include-date ni exclude-date

    Se utiliza con máscara de URL. El robot de búsqueda encuentra e indexa ("incluir") o ignora ("excluir") documentos en función de la dirección URL y la fecha de los documentos. Están disponibles los siguientes tipos de máscaras:

    • include-days NNN

      El robot de búsqueda indexa todos los documentos que coinciden con la máscara de URL especificada y que son NNN días o más antiguos.

      Puede seguir la máscara de URL con las palabras clave nofollow , noindex y/o server-date .

    • include-date YYYY-MM-DD

      El robot de búsqueda indexa todos los documentos que coinciden con la máscara de dirección URL especificada y que son tan antiguos o antiguos como la fecha AAAA-MM-DD, donde "AAAA" es el año de 4 dígitos, "MM" es el mes de uno o dos dígitos (1-12) y "DD" es el día de uno o dos dígitos (1-31).

      Puede seguir la máscara de URL con las palabras clave nofollow , noindex y/o server-date .

    • exclude-days NNN

      Deshabilita la indexación de todos los documentos que coinciden con la máscara de URL especificada y que son NNN días o más antiguos.

      Puede seguir la máscara de URL con la palabra clave server-date .

    • exclude-date YYYY-MM-DD

      Deshabilita la indexación de todos los documentos que coinciden con la máscara de URL especificada y que son tan antiguos o más que la fecha AAAA-MM-DD.

      Puede seguir la máscara de URL con la palabra clave server-date .

  • delete

    Especifique las direcciones URL. El robot de búsqueda elimina del índice los documentos identificados por la dirección URL.

  • deletemask

    El robot de búsqueda elimina del índice los documentos que coinciden con la máscara de URL especificada.

Consulte también Acerca de las máscaras de URL.

Ejemplo de archivo de secuencia de comandos

En el siguiente ejemplo de archivo de secuencias de comandos, el robot de búsqueda procesa los bloques siempre que los especificadores de fechas posdaten el especificador de fechas del bloque procesado más recientemente. Si ese es el caso, se producen las siguientes operaciones de indexación:

  • Elimina y2k-problems.html del índice.

  • Agrega no-y2k-problems.html al índice de búsqueda y no sigue ninguno de los vínculos de no-y2k-problems.html.

  • Durante el rastreo, excluya las direcciones URL que coincidan con housewares.htm y lightfixtures.html del índice de búsqueda.

  • Incluya todos los demás directorios y documentos en www.mydomain.com.

  • Actualice todos los documentos dentro de los directorios products y information, rastreando e indexando todos los vínculos subsidiarios que han cambiado desde la última operación de indexación.

  • Durante el rastreo, excluya las direcciones URL de la sección archive del sitio web si tienen fecha del 1 de enero de 1999 o antes de esa fecha.

  • Excluya las direcciones URL que coincidan con housewares.html y lightfixtures.html del índice de búsqueda.

  • Indexe archivos en el directorio help, pero no rastree ni indexe ningún vínculo de esos archivos.

  • Arrastre e indexe cualquier otro archivo encontrado para www.mydomain.com.

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

Configuración de un índice incremental con secuencias de comandos

Puede especificar un script que haya creado que escriba, actualice y mantenga un índice incremental, sin necesidad de iniciar sesión. El robot de búsqueda lee instrucciones del archivo de texto alojado en el servidor para realizar el índice incremental.

Para configurar un índice incremental con secuencias de comandos

  1. En el menú del producto, haga clic en Index > Scripted Index > Configuration.

  2. En la página Scripted Incremental Index Configuration, en Script File URL, introduzca la dirección URL del archivo de texto que se encuentra en el servidor.

    Consulte Acerca del índice de secuencias de comandos.

  3. (Opcional) Compruebe Clear Date si no desea que el robot de búsqueda "recuerde" el especificador de fecha del bloque procesado más recientemente.

    De forma predeterminada, el robot de búsqueda procesa solo los bloques nuevos de comandos que se encuentran en el archivo de texto, que está determinado por la fecha del archivo. Si no desea el valor predeterminado, marque Clear Date.

  4. Haga clic Save Changes.

  5. (Opcional) Realice una de las siguientes acciones:

Configuración de la programación de índice incremental con secuencias de comandos para un sitio web activo

Puede programar la indexación incremental mediante secuencias de comandos para que se produzca a intervalos regulares durante todo el día.

La hora base que seleccione es local según la zona horaria configurada en Configuración de la cuenta.

Consulte Configuración de la cuenta.

Los servidores web suelen estar programados para su mantenimiento a mitad de la noche. Si el servidor está inactivo durante una hora de índice programada, el proceso de indexación fallará. Asegúrese de seleccionar una hora del día en la que el servidor web esté disponible.

La programación de índices solo se aplica a su índice activo; no puede programar índices incrementales por etapas.

Definición de la programación de índice incremental con secuencias de comandos para un sitio web activo

  1. En el menú del producto, haga clic en Index > Scripted Index > Live Schedule.
  2. En la página Scripted Incremental Index Schedule, en la lista desplegable Read the Scripted Incrementally Indexing File, seleccione la frecuencia con la que desea que se ejecute el archivo de texto de índice incremental con secuencias de comandos, en horas o minutos.
  3. En la lista desplegable Base Time, seleccione la hora de inicio en la que desea volver a generar un nuevo índice incremental con secuencias de comandos.
  4. Haga clic Save Changes.

Ejecución de un índice incremental con secuencias de comandos de un sitio web activo o por etapas

Puede utilizar el índice incremental con secuencias de comandos para indexar "partes" de su sitio web activo o provisional, como una colección de páginas modificadas con frecuencia, sin necesidad de iniciar sesión.

Para utilizar esta función, asegúrese de que ha configurado un archivo de texto de índice incremental con secuencias de comandos.

Consulte Configuración de un índice incremental con secuencias de comandos.

Ejecutar un índice incremental con secuencias de comandos de un sitio web activo o escalonado

  1. En el menú del producto, realice una de las siguientes acciones:

    • Haga clic en Index > Scripted Index > Live Index.
    • Haga clic en Index > Scripted Index > Staged Index.
  2. Haga clic Scripted Index Now.

  3. (Opcional) Si se produjeron errores de indexación, haga clic en View Errors para ver el registro asociado.

Visualización del registro de índice incremental con secuencias de comandos de un sitio web activo o por etapas

Cuando se completa un índice de secuencia de comandos completo activo o un índice de secuencia de comandos completa por etapas, puede ver su registro asociado para solucionar cualquier error que se haya producido.

No puede exportar registros ni guardarlos. Sin embargo, el registro permanece disponible para su visualización hasta que se produzca el nuevo índice.

Para ver el registro de índice incremental de un sitio web activo o provisional

  1. En el menú del producto, realice una de las siguientes acciones:

    • Haga clic en Index > Scripted Index > Live Log.

    • Haga clic en Index > Scripted Index > Staged Log.

  2. En la página de registro, en la parte superior o inferior, realice una de las acciones siguientes:

    • Utilice las opciones de navegación First, Prev, Next, Last o Go to line para desplazarse por el registro.

    • Utilice las opciones de visualización Errors only, Wrap line o Show para restringir lo que ve.

En esta página