Acerca del menú Filtrado

Utilice el menú Filtrado para utilizar secuencias de comandos que cambien el contenido de un documento web antes de indexarlo.

Acerca del filtro de script

Puede utilizar Filtering Script para cambiar el contenido de un documento Web antes de que se indexe.

Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. El script de filtrado es un script Perl, que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares. La secuencia de comandos de filtrado se utiliza con una secuencia de comandos de inicialización, una secuencia de comandos de finalización, una secuencia de comandos de máscaras de URL y una URL de prueba.

La secuencia de comandos de filtrado se ejecuta cada vez que se lee un documento desde el sitio web. La secuencia de comandos se ejecuta como filtro estándar; en otras palabras, lee datos de STDIN, los transforma de alguna manera y escribe los resultados en STDOUT. Puede utilizar la secuencia de comandos de filtrado para imprimir los mensajes de estado de la secuencia de comandos de filtrado en el registro de índice. Los mensajes se imprimen en STDERR o a través de la subrutina _search_debug_log().

Algunas opciones de diferencia GNU que puede usar mientras está en modo Expert (diff) en la página Script de filtrado por etapas son las siguientes:

Opción GNU diff

Descripción

-b

Omite los cambios en la cantidad de espacio en blanco.

-B

Omite los cambios que insertan o eliminan líneas en blanco.

-c

Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.

Líneas C

Utiliza el formato de salida de contexto, que muestra líneas (un entero) de contexto o tres si no se dan líneas.

-i

Ignora los cambios en mayúsculas y minúsculas; considere equivalentes las letras mayúsculas y minúsculas.

-f

Convierte la salida en similar a un script ed pero tiene cambios en el orden en que aparece en el archivo.

-n

produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas que se ven afectadas.

-u

Utiliza el formato de salida unificado, que muestra tres líneas de contexto.

-Líneas U

Utiliza el formato de salida unificado, que muestra las líneas (un número entero) de contexto o tres si no se dan líneas.

Puede utilizar variables locales, variables globales o ambas en estas secuencias de comandos. A todas las variables globales se les agregará el prefijo del área de nombres "main::". Cuando se inicia el script de filtrado, su entorno contiene los siguientes controladores de archivo estándar:

  • STDIN: nada (devuelve EOF inmediatamente cuando se lee)
  • STDOUT: reemplace HTML (si los datos se imprimen en STDOUT, se utilizan en lugar del documento original)
  • STDERR: los datos impresos en STDERR se imprimen en el registro de índices como un error

Además, puede escribir mensajes personalizados en el registro de índices mediante la subrutina _search_debug_log() , como en el siguiente ejemplo:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Estos mensajes aparecen con la palabra DEBUG como prefijo y no se registran como errores.

El siguiente es un ejemplo de filtrado. Los campos <title> de la página web suelen comenzar con el nombre de la empresa. Aunque esta información es útil para la navegación del sitio, no es relevante cuando se realiza la búsqueda. Si los títulos de todas las páginas web de MegaCorp comienzan con una cadena común, como la siguiente:

<title>MegaCorp -- meaningful title 
here</title>

Debe eliminar "MegaCorp --" desde el principio de cada título de documento y contar cada documento procesado con la secuencia de comandos de filtrado. Para ello, puede utilizar la siguiente secuencia de comandos:

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variables globales

Puede utilizar las siguientes variables en cualquier script de filtrado:

Variable Descripción
$main::search_crawl_type El valor de $main::search_crawl_type indica el tipo de operación de índice en curso. Forma obsoleta: $main::ws_crawl_type Las operaciones de índice y los valores asociados incluyen lo siguiente:
  • Índice completo: Manual - manual
  • Índice completo: Programado - auto
  • Índice completo: Control remoto - CGI
  • Índice incremental: Manual - manual-incremental
  • Índice incremental: Programado - auto-incremental
  • Índice incremental: Control remoto - CGI-incremental
  • Índice con secuencias de comandos: Manual - manual-indexlist.txt
  • Índice con secuencias de comandos: Programado - auto-indexlist.txt
  • Índice con secuencias de comandos: Control remoto - CGI-indexlist.txt
  • Regenerar - manual-upgrade
$main::search_clear_cache El valor indica si la opción de indexación "Borrar caché de índice" se solicitó para la operación de índice actual. Si se solicitó "Borrar caché de índice", el valor de $main::search_clear_cache es " 1". Forma obsoleta: $main::ws_clear_cache
$main::search_fields El valor contiene una lista separada por tabuladores de los campos de metadatos definidos en la cuenta. De forma predeterminada, el valor es: url title desc keys target body alt date charset language Forma obsoleta: $main::ws_fields
$main::search_collections El valor contiene una lista separada por tabuladores de las colecciones que se definen en la cuenta. Forma obsoleta: $main::ws_collections
$main::search_url El valor es la dirección URL completa del documento. Forma obsoleta: $main::ws_url
$main::search_content_type El valor es el tipo de contenido del documento tal como se obtiene de la metaetiqueta http-equiv . Un valor típico es "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class El valor es la clase de contenido del documento, tal como se deriva del campo de tipo de contenido. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check El valor refleja el uso del botón "Comprobar sintaxis". Si se hace clic, el valor es 1 (uno); de lo contrario, su valor es 0 (cero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date Si lo proporciona el servidor web, este valor contiene la representación de Epoch (segundos transcurridos desde el 1 de enero de 1970) de la fecha de la última modificación del documento. Puede dar formato a este valor utilizando la llamada de biblioteca Perl localtime() .

Sugerencias rápidas

  • A todas las variables globales se les agregará el área de nombres "main::": $main::doc_count = 0;

  • Todas las variables locales se declaran con "my": my $i = 0;

  • Las subrutinas se definen en la secuencia de comandos de inicialización. No necesitan un espacio de nombres "main::" explícito: sub my_sub { ...

    }

  • Pruebe $main::search_content_type antes de realizar cambios en un archivo. Las pruebas pueden ayudar a evitar realizar cambios sin cuidado en archivos binarios, como archivos SWF o archivos PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • El $main::search_content_type es el encabezado Content-Type completo que su servidor entrega. A veces puede contener un tipo MIME simple, como "text/html". O bien, puede contener un tipo MIME seguido de otra información, como la codificación del conjunto de caracteres del documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento no HTML, $main::search_content_type puede tomar varios valores. La prueba de cada valor en la secuencia de comandos se vuelve engorrosa. Por ejemplo, algunos documentos de Word tienen valores de tipo de contenido de "application/msword", "application/vnd.ms-word" o "application/x-msword". En estos casos, $main::search_content_class puede tomar los siguientes valores:

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • En el ejemplo, probar $main::search_content_class para "word" coincidiría con cualquiera de los tres valores posibles de tipo de contenido.

  • Si no se imprime nada en STDOUT desde el script de filtrado, el documento se utiliza exactamente como se descargó. Es decir, si no necesita cambiar nada en un documento, no necesita copiar STDIN en STDOUT para ese documento.

  • Si desea quitar todo el texto de un documento, imprima un archivo válido STDOUT. Por ejemplo, para eliminar todo el texto de un documento HTML, haga lo siguiente: print "<html></html>";

Adición de un script de filtrado

El script de filtrado es un script Perl que se ejecuta para cada documento descargado del sitio web.

La secuencia de comandos de filtrado se utiliza junto con la secuencia de comandos de inicialización, la secuencia de comandos de finalización y la secuencia de comandos de máscaras de URL.

Asegúrese de reconstruir el índice del sitio para que los resultados del script de filtrado sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Adición de una secuencia de comandos de filtrado

  1. En el menú del producto, haga clic en Settings > Filtering > Filtering Script.

  2. (Opcional) En la página Filtering Script, en el campo Test URL, introduzca la dirección URL de un documento en el sitio web.

    Haga clic en una opción de prueba para ver los cambios en el texto HTML sin procesar.

    Opción

    Descripción

    Campo de dirección URL de prueba

    Permite introducir la dirección URL de un documento en el sitio web.

    Prueba

    Comprueba la dirección URL con las secuencias de comandos de filtrado y las máscaras de URL.

    Se descarga el documento de la URL de prueba, que luego se utiliza como entrada STDIN en el script de filtrado. A continuación, se ejecutan las secuencias de comandos de inicialización, filtrado y finalización. Si hay alguna salida STDOUT del script de filtrado, esa salida se muestra en una nueva ventana del navegador.

    Solo prueba

    Prueba únicamente la operación de la secuencia de comandos.

    Vista previa

    Permite ver la página.

    Completo visual

    Genera una vista de tabla completa antes y después de los documentos.

    Abreviado visual

    Muestra únicamente las diferencias entre las vistas anteriores y posteriores.

    Experto (diff)

    Muestra la salida sin procesar del comando GNU diff que se usa para comparar los archivos, usando las opciones de línea de comandos suministradas.

    Filtrado de secuencias de comandos

    Permite pegar la secuencia de comandos de filtrado en el campo proporcionado.

    Guardar cambios

    Guarda el script de filtrado.

    Comprobar sintaxis

    Permite comprobar rápidamente la sintaxis de la secuencia de comandos ejecutando las secuencias de comandos de inicialización, filtrado y finalización. No actualiza ni guarda el script.

    Se imprimen todos los errores y advertencias del compilador de Perl y todos los resultados de STDERR.

    Antes de que los efectos de la secuencia de comandos sean visibles para los clientes, debe volver a generar el índice del sitio.

    Opciones de línea de comandos de GNU diff

    Algunas opciones de diferencia GNU que puede usar mientras está en modo Expert (diff) en la página Script de filtrado por etapas son las siguientes:

    Opción de línea de comandos GNU diff

    Descripción

    -b

    Omite los cambios en la cantidad de espacio en blanco.

    -B

    Omite los cambios que insertan o eliminan líneas en blanco.

    -c

    Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.

    Líneas C

    Utiliza el formato de salida de contexto, que muestra líneas (un entero) de contexto o tres si no se dan líneas.

    -i

    Ignora los cambios en mayúsculas y minúsculas; considere equivalentes las letras mayúsculas y minúsculas.

    -f

    Convierte la salida en similar a un script ed pero tiene cambios en el orden en que aparece en el archivo.

    -n

    produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas que se ven afectadas.

    -u

    Utiliza el formato de salida unificado, que muestra tres líneas de contexto.

    -Líneas U

    Utiliza el formato de salida unificado, que muestra las líneas (un número entero) de contexto o tres si no se dan líneas.

  3. Haga clic en Test para realizar pruebas con los scripts de filtrado y las máscaras de URL.

    Al hacer clic en Test no se actualiza ni se guarda el script de filtrado.

  4. En el campo Filtering Script , pegue la secuencia de comandos.

  5. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de la secuencia de comandos ejecutando las secuencias de comandos de filtrado, inicialización y finalización.

    Check Syntax no actualiza ni guarda el script.

  6. Haga clic Save Changes.

  7. (Opcional) Reconstruya el índice del sitio provisional si desea obtener una vista previa de los resultados.

    Consulte Configuración de un índice incremental de un sitio web provisional.

  8. (Opcional) En la página Filtering Script, realice una de las acciones siguientes:

Acerca del script de inicialización

Puede utilizar Initialization Script para cambiar el contenido de un documento Web antes de que se indexe.

Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de inicialización es una secuencia de comandos Perl, que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares. La secuencia de comandos de inicialización se utiliza con una secuencia de comandos de filtrado, una secuencia de comandos de finalización, una secuencia de comandos de máscaras de URL y una URL de prueba.

La secuencia de comandos de inicialización se ejecuta una vez antes de que comience la indexación. Utilice esta secuencia de comandos para inicializar las variables y subrutinas globales que utilice el script de filtrado. Puede utilizar la secuencia de comandos de inicialización para imprimir mensajes de estado desde la secuencia de comandos de filtrado al registro de índice. Los mensajes se imprimen en STDERR o a través de la subrutina _search_debug_log().

Algunas opciones de diferencia GNU que puede usar mientras está en modo Expert (diff) en la página Script de inicialización por etapas son las siguientes:

Opción GNU diff

Descripción

-b

Omite los cambios en la cantidad de espacio en blanco.

-B

Omite los cambios que insertan o eliminan líneas en blanco.

-c

Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.

Líneas C

Utiliza el formato de salida de contexto, que muestra líneas (un entero) de contexto o tres si no se dan líneas.

-i

Ignora los cambios en mayúsculas y minúsculas; considere equivalentes las letras mayúsculas y minúsculas.

-f

Convierte la salida en similar a un script ed pero tiene cambios en el orden en que aparece en el archivo.

-n

produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas afectadas.

-u

Utiliza el formato de salida unificado, que muestra tres líneas de contexto.

-Líneas U

Utiliza el formato de salida unificado, que muestra las líneas (un número entero) de contexto o tres si no se dan líneas.

Puede utilizar variables locales, variables globales o ambas en estas secuencias de comandos. A todas las variables globales se les agregará el prefijo del área de nombres "main::". Cuando se inicia la secuencia de comandos de inicialización, su entorno contiene los siguientes identificadores de archivo estándar:

  • STDIN: nada (devuelve EOF inmediatamente cuando se lee)
  • STDOUT: nada (si los datos se imprimen en STDOUT, se descartan)
  • STDERR: los datos impresos en STDERR se imprimen en el registro de índices como un error

Además, puede escribir mensajes personalizados en el registro de índices mediante la subrutina _search_debug_log() , como en el siguiente ejemplo:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Estos mensajes aparecen con la palabra DEBUG como prefijo y no se registran como errores.

Un ejemplo de secuencia de comandos de inicialización es el siguiente:

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Consulte Variables globales

Sugerencias rápidas

  • A todas las variables globales se les agregará el área de nombres "main::": $main::doc_count = 0;

  • Todas las variables locales se declaran con "my": my $i = 0;

  • Las subrutinas se definen en la secuencia de comandos de inicialización. No necesitan un espacio de nombres "main::" explícito: sub my_sub { ...

    }

  • Pruebe $main::search_content_type antes de realizar cambios en un archivo. Las pruebas pueden ayudar a evitar realizar cambios sin cuidado en archivos binarios, como archivos SWF o archivos PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • El $main::search_content_type es el encabezado Content-Type completo que su servidor entrega. A veces puede contener un tipo MIME simple, como "text/html". O bien, puede contener un tipo MIME seguido de otra información, como la codificación del conjunto de caracteres del documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento no HTML, $main::search_content_type puede tomar varios valores. La prueba de cada valor en la secuencia de comandos se vuelve engorrosa. Por ejemplo, algunos documentos de Word tienen valores de tipo de contenido de "application/msword", "application/vnd.ms-word" o "application/x-msword". En estos casos, $main::search_content_class puede tomar los siguientes valores:

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • En el ejemplo, probar $main::search_content_class para "word" coincidiría con cualquiera de los tres valores posibles de tipo de contenido.

  • Si no se imprime nada en STDOUT desde el script de filtrado, el documento se utiliza exactamente como se descargó. Es decir, si no necesita cambiar nada en un documento, no necesita copiar STDIN en STDOUT para ese documento.

  • Si desea quitar todo el texto de un documento, imprima un archivo válido STDOUT. Por ejemplo, para eliminar todo el texto de un documento HTML, haga lo siguiente: print "<html></html>";

Adición de una secuencia de comandos de inicialización

La secuencia de comandos de inicialización es una secuencia de comandos Perl que se ejecuta una vez antes de que se indiquen los documentos.

La secuencia de comandos de inicialización se utiliza junto con una secuencia de comandos de filtrado, una secuencia de comandos de finalización y una secuencia de comandos de máscaras de URL.

Asegúrese de reconstruir el índice del sitio para que los resultados de la secuencia de comandos de inicialización sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Adición de una secuencia de comandos de inicialización

  1. En el menú del producto, haga clic en Settings > Filtering > Initialization Script.

  2. (Opcional) En la página Initialization Script, en el campo Test URL, introduzca la dirección URL de un documento en el sitio web.

    Haga clic en una opción de prueba para ver los cambios en el texto HTML sin procesar.

    Consulte la tabla de opciones de filtrado en Añadir un script de filtrado.

    Haga clic en Test para realizar pruebas con los scripts de filtrado y las máscaras de URL.

    Al hacer clic en Test no se actualiza ni se guarda la secuencia de comandos de inicialización.

  3. En el campo Initialization Script , pegue la secuencia de comandos.

  4. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de la secuencia de comandos ejecutando las secuencias de comandos de filtrado, inicialización y finalización.

    Check Syntax no actualiza ni guarda el script.

  5. Haga clic Save Changes.

  6. (Opcional) Reconstruya el índice del sitio provisional si desea obtener una vista previa de los resultados.

    Consulte Configuración de un índice incremental de un sitio web provisional.

  7. (Opcional) En la página Initialization Script, realice una de las acciones siguientes:

Acerca del script de finalización

Puede utilizar Termination Script para cambiar el contenido de un documento Web antes de que se indexe.

Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de inicialización es una secuencia de comandos Perl, que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares. La secuencia de comandos de finalización se utiliza con una secuencia de comandos de inicialización, una secuencia de comandos de filtrado, una secuencia de comandos de finalización, una secuencia de comandos de máscaras de URL y una URL de prueba.

La secuencia de comandos de terminación se ejecuta una vez después de indexar todos los documentos. Puede utilizar la secuencia de comandos de terminación para imprimir los mensajes de estado de la secuencia de comandos de filtrado en el registro de índice. Los mensajes se imprimen en STDERR o a través de la subrutina _search_debug_log().

Algunas opciones de la línea de comandos de GNU diff que puede usar mientras está en modo Expert (diff) en la página Script de terminación por etapas son las siguientes:

Opción de línea de comandos GNU diff

Descripción

-b

Omite los cambios en la cantidad de espacio en blanco.

-B

Omite los cambios que insertan o eliminan líneas en blanco.

-c

Utiliza el formato de salida de contexto, que muestra tres líneas de contexto.

Líneas C

Utiliza el formato de salida de contexto, que muestra líneas (un entero) de contexto o tres si no se dan líneas.

-i

Ignora los cambios en mayúsculas y minúsculas; considere equivalentes las letras mayúsculas y minúsculas.

-f

Convierte la salida en similar a un script ed pero tiene cambios en el orden en que aparece en el archivo.

-n

produce diferencias en formato RCS; como -f excepto que cada comando especifica el número de líneas que se ven afectadas.

-u

Utiliza el formato de salida unificado, que muestra tres líneas de contexto.

-Líneas U

Utiliza el formato de salida unificado, que muestra las líneas (un número entero) de contexto o tres si no se dan líneas.

Puede utilizar variables locales, variables globales o ambas en estas secuencias de comandos. A todas las variables globales se les agregará el prefijo del área de nombres "main::". Cuando se inicia la secuencia de comandos de terminación, su entorno contiene los siguientes identificadores de archivo estándar:

  • STDIN: nada (devuelve EOF inmediatamente cuando se lee)
  • STDOUT: nada (si los datos se imprimen en STDOUT, se descartan)
  • STDERR: los datos impresos en STDERR se imprimen en el registro de índice como un error

Además, puede escribir mensajes personalizados en el registro de índices mediante la subrutina _search_debug_log() , como en el siguiente ejemplo:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Estos mensajes aparecen con la palabra DEBUG como prefijo y no se registran como errores.

Para mostrar el número de documentos procesados por la secuencia de comandos de filtrado como una línea de error en el registro de índice, puede utilizar la siguiente secuencia de comandos de terminación:

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Consulte Variables globales

Sugerencias rápidas

  • A todas las variables globales se les agregará el área de nombres "main::": $main::doc_count = 0;

  • Todas las variables locales se declaran con "my": my $i = 0;

  • Las subrutinas se definen en la secuencia de comandos de inicialización. No necesitan un espacio de nombres "main::" explícito: sub my_sub { ...

    }

  • Pruebe $main::search_content_type antes de realizar cambios en un archivo. Las pruebas pueden ayudar a evitar realizar cambios sin cuidado en archivos binarios, como archivos SWF o archivos PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • El $main::search_content_type es el encabezado Content-Type completo que su servidor entrega. A veces puede contener un tipo MIME simple, como "text/html". O bien, puede contener un tipo MIME seguido de otra información, como la codificación del conjunto de caracteres del documento, como "text/html; charset=iso-8859-1".

  • Para cada tipo de documento no HTML, $main::search_content_type puede tomar varios valores. La prueba de cada valor en la secuencia de comandos se vuelve engorrosa. Por ejemplo, algunos documentos de Word tienen valores de tipo de contenido de "application/msword", "application/vnd.ms-word" o "application/x-msword". En estos casos, $main::search_content_class puede tomar los siguientes valores:

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • En el ejemplo, probar $main::search_content_class para "word" coincidiría con cualquiera de los tres valores posibles de tipo de contenido.

  • Si no se imprime nada en STDOUT desde el script de filtrado, el documento se utiliza exactamente como se descargó. Es decir, si no necesita cambiar nada en un documento, no necesita copiar STDIN en STDOUT para ese documento.

  • Si desea quitar todo el texto de un documento, imprima un archivo válido STDOUT. Por ejemplo, para eliminar todo el texto de un documento HTML, haga lo siguiente: print "<html></html>";

Adición de una secuencia de comandos de terminación

La secuencia de comandos de terminación es una secuencia de comandos Perl que se ejecuta una vez después de indexar todos los documentos.

La secuencia de comandos de terminación se utiliza junto con una secuencia de comandos de filtrado, una secuencia de comandos de finalización y una secuencia de comandos de máscaras de URL.

Asegúrese de reconstruir el índice del sitio para que los resultados de la secuencia de comandos de inicialización sean visibles para los clientes.

Consulte Configuración de un índice incremental de un sitio web provisional.

Agregar una secuencia de comandos de finalización

  1. En el menú del producto, haga clic en Settings > Filtering > Termination Script.

  2. (Opcional) En la página Termination Script, en el campo Test URL, introduzca la dirección URL de un documento en el sitio web.

    Haga clic en una opción de prueba para ver los cambios en el texto HTML sin procesar.

    Consulte la tabla de opciones de filtrado en Añadir un script de filtrado.

    Haga clic en Test para realizar pruebas con los scripts de filtrado y las máscaras de URL.

    Al hacer clic en Test no se actualiza ni se guarda la secuencia de comandos de terminación.

  3. En el campo Termination Script , pegue la secuencia de comandos.

  4. (Opcional) Haga clic en Check Syntax para realizar una comprobación rápida de la sintaxis de la secuencia de comandos ejecutando las secuencias de comandos de inicialización, filtrado y finalización.

    Check Syntax no actualiza ni guarda el script.

  5. Haga clic Save Changes.

  6. (Opcional) Reconstruya el índice del sitio provisional si desea obtener una vista previa de los resultados.

    Consulte Configuración de un índice incremental de un sitio web provisional.

  7. (Opcional) En la página Termination Script, realice una de las acciones siguientes:

Acerca del script de máscaras de URL

Con el filtrado, puede cambiar el contenido de un documento web antes de que se indexa. Puede insertar etiquetas HTML, eliminar contenido irrelevante e incluso crear nuevos metadatos HTML basados en la URL, el tipo MIME y el contenido existente de un documento. La secuencia de comandos de máscaras de URL es una secuencia de comandos Perl que proporciona una potente gestión de cadenas y la flexibilidad de la coincidencia de expresiones regulares.

Para cambiar el contenido de los documentos que existen solamente en una parte específica del sitio web, puede especificar incluir máscaras de URL, excluir máscaras de URL, o ambas, para definir las páginas adecuadas.

Si desea cambiar solo los documentos de "https://www.mysite.com/faqs/", puede utilizar el siguiente conjunto de máscaras:

include https://www.mysite.com/faqs/ 
exclude *

También puede utilizar la expresión regular en un script de máscara de URL como en el siguiente ejemplo:

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Consulte Expresiones regulares.

Las máscaras de URL con secuencias de comandos se tienen en cuenta en el orden en que se introdujeron en el campo URL Masks. Cuando la dirección URL de un documento coincide con una máscara, ese documento se incluye o excluye en función del tipo de máscara. Si la dirección URL de un documento no coincide con ninguna máscara de dirección URL, el documento se incluye únicamente si su tipo MIME es "text/html". Se excluyen todos los demás tipos de MIME.

Adición de un script de máscara de URL

Especifique las direcciones URL que incluyen máscaras y excluyan máscaras para cambiar el contenido de los documentos que solo existen en una parte específica del sitio web.

Antes de que los visitantes vean los efectos de la configuración de las máscaras de URL, reconstruya el índice del sitio.

Adición de una secuencia de comandos de máscara de URL

  1. En el menú del producto, haga clic en Settings > Filtering > URL Masks.

  2. (Opcional) En la página URL Masks, en el campo Test URL, introduzca una dirección URL de un documento en el sitio web y, a continuación, haga clic en Test para probar la dirección URL con las secuencias de comandos y máscaras de filtrado.

    Se descarga el documento de la URL de prueba, que se utiliza como entrada STDIN en el script de filtrado. A continuación, se ejecutan las secuencias de comandos de filtrado, inicialización y finalización. Si hay algún resultado STDOUT del script de filtrado, ese resultado se muestra en una nueva ventana del navegador.

    Al hacer clic en Test no se actualiza ni se guarda el script.

  3. En el campo URL Masks, introduzca una máscara URL por línea.

  4. (Opcional) Haga clic en Check Syntax para realizar una comprobación de sintaxis rápida de las máscaras de URL ejecutando las secuencias de comandos de filtrado, inicialización y finalización.

    Check Syntax no actualiza ni guarda el script.

  5. Haga clic Save Changes.

  6. (Opcional) Reconstruya el índice del sitio provisional si desea obtener una vista previa de los resultados.

    Consulte Configuración de un índice incremental de un sitio web provisional.

  7. (Opcional) En la página URL Masks, realice una de las acciones siguientes:

Acerca de los tipos de contenido en el filtro

Permite seleccionar los tipos de contenido que desea filtrar para esta cuenta.

El texto que se encuentra dentro de los tipos de contenido seleccionados se convierte a HTML y luego se procesa con la secuencia de comandos especificada en Secuencia de comandos de filtrado.

Consulte Acerca del filtrado de secuencias de comandos.

Los tipos de contenido que puede seleccionar son los siguientes:

  • Documentos PDF
  • Documentos de texto
  • películas de Flash de Adobe
  • Archivos de Microsoft Word
  • Archivos de Microsoft Office (OpenXML)
  • Archivos de Microsoft Excel
  • Archivos de Microsoft PowerPoint
  • Texto en archivos de música MP3

Antes de que los efectos de la configuración de los tipos de contenido o los cambios en la configuración sean visibles para los clientes, debe volver a generar el índice del sitio.

Selección de los tipos de contenido filtrados

Seleccione los tipos de contenido que desea pasar a la secuencia de comandos especificada en Secuencia de comandos de filtrado.

Consulte Acerca del filtrado de secuencias de comandos.

Seleccionar los tipos de contenido que se filtran

  1. En el menú del producto, haga clic en Settings > Filtering > Content Types.

  2. En la página Content Types, compruebe los tipos de contenido que desea pasar al script de filtro.

  3. Haga clic Save Changes.

  4. (Opcional) Reconstruya el índice del sitio provisional si desea obtener una vista previa de los resultados.

    Consulte Configuración de un índice incremental de un sitio web provisional.

  5. (Opcional) En la página Content Types, realice una de las acciones siguientes:

En esta página