Informazioni sul menu Filtro

Il menu Filtro consente di utilizzare gli script che modificano il contenuto di un documento Web prima dell'indicizzazione.

Informazioni sul filtro degli script

È possibile utilizzare Filtering Script per modificare il contenuto di un documento Web prima che venga indicizzato.

Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script di filtraggio è uno script Perl, che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di filtraggio viene utilizzato con uno script di inizializzazione, uno script di terminazione, uno script di maschere URL e l'URL di prova.

Lo script di filtraggio viene eseguito ogni volta che un documento viene letto dal sito Web. Lo script viene eseguito come filtro standard. In altre parole, legge i dati da STDIN, trasforma i dati in qualche modo, e scrive i risultati in STDOUT. È possibile utilizzare lo script di filtraggio per stampare i messaggi di stato dallo script di filtraggio al registro di indice. È possibile stampare i messaggi su STDERR oppure tramite la subroutine _search_debug_log().

Alcune opzioni diff GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script filtro in fase, includono:

Differf GNU, opzione

Descrizione

-b

Ignora le modifiche nella quantità di spazio vuoto.

-B

Ignora le modifiche che consentono di inserire o eliminare righe vuote.

-c

Utilizza il formato di output del contesto, che mostra tre righe di contesto.

-C linee

Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.

-i

Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.

-f

Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.

-n

Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.

-u

Utilizza il formato di output unificato, che mostra tre righe di contesto.

-U linee

Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

In questi script è possibile utilizzare variabili locali, variabili globali o entrambe. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". All'avvio dello script di filtraggio, il relativo ambiente contiene le seguenti handle di file standard:

  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - HTML di sostituzione (se i dati vengono stampati su STDOUT, vengono utilizzati al posto del documento originale)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro indice come un errore

Inoltre, è possibile scrivere messaggi personalizzati nel registro indice utilizzando la subroutine _search_debug_log(), come nell'esempio seguente:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.

Di seguito è riportato un esempio di filtraggio. I campi della pagina Web <title> spesso iniziano con il nome della società. Anche se queste informazioni sono utili per la navigazione nel sito, non sono rilevanti per la ricerca. Se i titoli di tutte le pagine Web MegaCorp iniziano con una stringa comune, ad esempio:

<title>MegaCorp -- meaningful title 
here</title>

Rimuovere " MegaCorp --" dall'inizio di ciascun titolo del documento e contare ogni documento elaborato con lo script di filtro. A tal fine, è possibile utilizzare il seguente script:

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variabili globali

In qualsiasi script di filtro è possibile utilizzare le seguenti variabili:

Variabile Descrizione
$main::search_crawl_type Il valore di $main::search_crawl_type indica il tipo di operazione di indice in corso. Modulo obsoleto: $main::ws_crawl_type Le operazioni di indice e i valori associati includono quanto segue:
  • Indice completo: Manuale - manual
  • Indice completo: Pianificato - auto
  • Indice completo: Controllo remoto - CGI
  • Indice incrementale: Manuale - manual-incremental
  • Indice incrementale: Pianificato - auto-incremental
  • Indice incrementale: Controllo remoto - CGI-incremental
  • Indice con script: Manuale - manual-indexlist.txt
  • Indice con script: Pianificato - auto-indexlist.txt
  • Indice con script: Controllo remoto - CGI-indexlist.txt
  • Rigenerazione - manual-upgrade
$main::search_clear_cache Il valore indica se l'opzione di indicizzazione "Cancella cache indice" è stata richiesta per l'operazione di indice corrente. Se è stato richiesto "Cancella cache indice", il valore di $main::search_clear_cache è " 1". Forma obsoleta: $main::ws_clear_cache
$main::search_fields Il valore contiene un elenco separato da tabulazioni dei campi di metadati definiti nell’account. Per impostazione predefinita, il valore è: url title desc keys target body alt date charset language Modulo obsoleto: $main::ws_fields
$main::search_collections Il valore contiene un elenco separato da tabulazioni delle raccolte definite nell'account. Forma obsoleta: $main::ws_collections
$main::search_url Il valore è l’URL completo del documento. Forma obsoleta: $main::ws_url
$main::search_content_type Il valore è il tipo di contenuto del documento ottenuto dal tag meta http-equiv. Un valore tipico è "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class Il valore è la classe di contenuto del documento, come derivato dal campo del tipo di contenuto. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check Il valore riflette l'utilizzo del pulsante "Controlla sintassi". Se l'utente fa clic su di esso, il valore è 1 (uno); in caso contrario, il valore è 0 (zero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date Se fornito dal server Web, questo valore contiene la rappresentazione dell'epoch (secondi dal 1 gennaio 1970) della data dell'ultima modifica del documento. Potete formattare questo valore utilizzando la chiamata della libreria Perl localtime().

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio nomi "main::": $main::doc_count = 0;

  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;

  • Le sottoscrizioni sono definite nello script di inizializzazione. Non necessitano di uno spazio nomi "main:" esplicito: sub my_sub { ...

    }

  • Verificare la $main::search_content_type prima di apportare modifiche a un file. La verifica può essere utile per evitare di apportare modifiche indesiderate ai file binari, come i file SWF o i file PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type è l'intestazione Content-Type completa fornita dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".

  • Per ciascun tipo di documento non HTML, $main::search_content_type può assumere diversi valori. La verifica di ciascun valore nello script diventa difficoltosa. Ad esempio, alcuni documenti di Word presentano i valori del tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In tali casi, $main::search_content_class può assumere i seguenti valori:

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Nell'esempio, il test di $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori del tipo di contenuto.

  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come era stato scaricato. Se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.

  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, effettuate le seguenti operazioni: print "<html></html>";

Aggiunta di uno script di filtro

Lo script di filtraggio è uno script Perl che viene eseguito per ogni documento scaricato dal sito Web.

Lo script di filtraggio viene utilizzato insieme a uno script di inizializzazione, a uno script di terminazione e a uno script di maschere URL.

Assicuratevi di rigenerare l'indice del sito in modo che i risultati dello script di filtraggio siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per aggiungere uno script di filtro

  1. Scegliere Settings > Filtering > Filtering Script dal menu del prodotto.

  2. (Facoltativo) Nella pagina Filtering Script, nel campo Test URL immettere l'URL di un documento sul sito Web.

    Fate clic su un'opzione di test per visualizzare le modifiche apportate al testo HTML non elaborato.

    Opzione

    Descrizione

    Campo URL test

    Consente di inserire l’URL di un documento nel sito Web.

    Test

    Verifica l’URL rispetto agli script di filtraggio e alle maschere URL.

    Il documento dell'URL di prova viene scaricato, che viene quindi utilizzato come input STDIN per lo script di filtraggio. Gli script di inizializzazione, filtro e terminazione vengono quindi eseguiti. Se esiste un output STDOUT dello script di filtraggio, tale output viene visualizzato in una nuova finestra del browser.

    Solo test

    Verifica solo l'operazione dello script.

    Anteprima

    Consente di visualizzare la pagina.

    Visuale completa

    Genera una visualizzazione completa dei documenti prima e dopo la tabella.

    Breve visualizzazione

    Mostra solo le differenze tra le viste prima e dopo.

    Esperti (diff)

    Visualizza l'output non elaborato del comando GNU diff utilizzato per confrontare i file, utilizzando le opzioni della riga di comando fornite.

    Filtrare lo script

    Consente di incollare lo script di filtro nel campo fornito.

    Salva le modifiche

    Salva lo script di filtraggio.

    Controlla sintassi

    Consente di verificare rapidamente la sintassi dello script eseguendo gli script di inizializzazione, filtraggio e terminazione. Non aggiorna e salva lo script.

    Vengono stampati tutti gli errori e gli avvisi del compilatore Perl e tutti gli output STDERR.

    Prima che gli effetti dello script siano visibili ai clienti, è necessario rigenerare l'indice del sito.

    Opzioni della riga di comando GNU diff

    Alcune opzioni diff GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script filtro in fase, includono:

    GNU diff, opzione della riga di comando

    Descrizione

    -b

    Ignora le modifiche nella quantità di spazio vuoto.

    -B

    Ignora le modifiche che consentono di inserire o eliminare righe vuote.

    -c

    Utilizza il formato di output del contesto, che mostra tre righe di contesto.

    -C linee

    Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.

    -i

    Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.

    -f

    Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.

    -n

    Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.

    -u

    Utilizza il formato di output unificato, che mostra tre righe di contesto.

    -U linee

    Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

  3. Fate clic su Test per eseguire il test rispetto agli script di filtraggio e alle maschere URL.

    Facendo clic su Test non si aggiorna e si salva lo script di filtro.

  4. Nel campo Filtering Script, incollare lo script.

  5. (Facoltativo) Fare clic su Check Syntax per eseguire un controllo rapido della sintassi dello script eseguendo gli script di filtraggio, inizializzazione e terminazione.

    Check Syntax non aggiorna e salva lo script.

  6. Clic Save Changes.

  7. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.

    Vedere Configurazione di un indice incrementale di un sito Web in fase.

  8. (Facoltativo) Nella pagina Filtering Script, effettuare una delle seguenti operazioni:

Informazioni sullo script di inizializzazione

È possibile utilizzare Initialization Script per modificare il contenuto di un documento Web prima che venga indicizzato.

Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script di inizializzazione è uno script Perl, che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di inizializzazione può essere utilizzato con uno script di filtraggio, uno script di terminazione, uno script di maschere URL e un URL di prova.

Lo script di inizializzazione viene eseguito una volta prima dell'inizio dell'indicizzazione. Utilizzare questo script per inizializzare le variabili globali e le sottoroutine utilizzate dallo script di filtraggio. È possibile utilizzare lo script di inizializzazione per stampare i messaggi di stato dallo script di filtraggio al registro di indice. I messaggi vengono stampati su STDERR oppure tramite la subroutine _search_debug_log().

Alcune opzioni diff GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script di inizializzazione temporanea includono:

Differf GNU, opzione

Descrizione

-b

Ignora le modifiche nella quantità di spazio vuoto.

-B

Ignora le modifiche che consentono di inserire o eliminare righe vuote.

-c

Utilizza il formato di output del contesto, che mostra tre righe di contesto.

-C linee

Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.

-i

Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.

-f

Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.

-n

Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.

-u

Utilizza il formato di output unificato, che mostra tre righe di contesto.

-U linee

Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

In questi script è possibile utilizzare variabili locali, variabili globali o entrambe. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". All'avvio dello script di inizializzazione, il relativo ambiente contiene le seguenti handle di file standard:

  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - niente (se i dati vengono stampati su STDOUT, vengono scartati)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro indice come un errore

Inoltre, è possibile scrivere messaggi personalizzati nel registro indice utilizzando la subroutine _search_debug_log(), come nell'esempio seguente:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.

Un esempio di script di inizializzazione è il seguente:

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Vedere Variabili globali

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio nomi "main::": $main::doc_count = 0;

  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;

  • Le sottoscrizioni sono definite nello script di inizializzazione. Non necessitano di uno spazio nomi "main:" esplicito: sub my_sub { ...

    }

  • Verificare la $main::search_content_type prima di apportare modifiche a un file. La verifica può essere utile per evitare di apportare modifiche indesiderate ai file binari, come i file SWF o i file PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type è l'intestazione Content-Type completa fornita dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".

  • Per ciascun tipo di documento non HTML, $main::search_content_type può assumere diversi valori. La verifica di ciascun valore nello script diventa difficoltosa. Ad esempio, alcuni documenti di Word presentano i valori del tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In tali casi, $main::search_content_class può assumere i seguenti valori:

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Nell'esempio, il test di $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori del tipo di contenuto.

  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come era stato scaricato. Se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.

  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, effettuate le seguenti operazioni: print "<html></html>";

Aggiunta di uno script di inizializzazione

Lo script di inizializzazione è uno script Perl che viene eseguito una volta prima dell'indicizzazione di qualsiasi documento.

Lo script di inizializzazione viene utilizzato insieme a uno script di filtro, script di terminazione e script di maschere URL.

Assicuratevi di rigenerare l'indice del sito in modo che i risultati dello script di inizializzazione siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per aggiungere uno script di inizializzazione

  1. Scegliere Settings > Filtering > Initialization Script dal menu del prodotto.

  2. (Facoltativo) Nella pagina Initialization Script, nel campo Test URL immettere l'URL di un documento sul sito Web.

    Fate clic su un'opzione di test per visualizzare le modifiche apportate al testo HTML non elaborato.

    Vedere la tabella delle opzioni di filtro in Aggiunta di uno script di filtro.

    Fate clic su Test per eseguire il test rispetto agli script di filtraggio e alle maschere URL.

    Se si fa clic su Test, lo script di inizializzazione non viene aggiornato e salvato.

  3. Nel campo Initialization Script, incollare lo script.

  4. (Facoltativo) Fare clic su Check Syntax per eseguire un controllo rapido della sintassi dello script eseguendo gli script di filtraggio, inizializzazione e terminazione.

    Check Syntax non aggiorna e salva lo script.

  5. Clic Save Changes.

  6. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.

    Vedere Configurazione di un indice incrementale di un sito Web in fase.

  7. (Facoltativo) Nella pagina Initialization Script, effettuare una delle seguenti operazioni:

Informazioni sullo script di terminazione

È possibile utilizzare Termination Script per modificare il contenuto di un documento Web prima che venga indicizzato.

Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script di inizializzazione è uno script Perl, che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di terminazione viene utilizzato con uno script di inizializzazione, uno script di filtraggio, uno script di terminazione, uno script di maschere URL e un URL di prova.

Lo script di terminazione viene eseguito una volta che tutti i documenti sono indicizzati. È possibile utilizzare lo script di terminazione per stampare i messaggi di stato dallo script di filtraggio al registro di indice. I messaggi vengono stampati su STDERR oppure tramite la subroutine _search_debug_log().

Alcune opzioni della riga di comando GNU diff che è possibile utilizzare in modalità Expert (diff) nella pagina Script di terminazione in fase, includono:

GNU diff, opzione della riga di comando

Descrizione

-b

Ignora le modifiche nella quantità di spazio vuoto.

-B

Ignora le modifiche che consentono di inserire o eliminare righe vuote.

-c

Utilizza il formato di output del contesto, che mostra tre righe di contesto.

-C linee

Utilizza il formato di output contestuale, che mostra le righe (un numero intero) di righe di contesto, o tre se non sono date righe.

-i

Ignora le modifiche nel caso; considera equivalenti lettere maiuscole e minuscole.

-f

Esegue un output simile a uno script ed con modifiche nell'ordine in cui appaiono nel file.

-n

Trasmette diffusori in formato RCS; come -f , con la differenza che ogni comando specifica il numero di righe interessate.

-u

Utilizza il formato di output unificato, che mostra tre righe di contesto.

-U linee

Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

In questi script è possibile utilizzare variabili locali, variabili globali o entrambe. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". All'avvio dello script di terminazione, l'ambiente in cui si trova contiene le seguenti handle di file standard:

  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - niente (se i dati vengono stampati su STDOUT, vengono scartati)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro indice come un errore

Inoltre, è possibile scrivere messaggi personalizzati nel registro indice utilizzando la subroutine _search_debug_log(), come nell'esempio seguente:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.

Per visualizzare il numero di documenti elaborati dallo script di filtraggio come riga di errore nel registro indice, è possibile utilizzare il seguente script di terminazione:

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Vedere Variabili globali

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio nomi "main::": $main::doc_count = 0;

  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;

  • Le sottoscrizioni sono definite nello script di inizializzazione. Non necessitano di uno spazio nomi "main:" esplicito: sub my_sub { ...

    }

  • Verificare la $main::search_content_type prima di apportare modifiche a un file. La verifica può essere utile per evitare di apportare modifiche indesiderate ai file binari, come i file SWF o i file PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • $main::search_content_type è l'intestazione Content-Type completa fornita dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".

  • Per ciascun tipo di documento non HTML, $main::search_content_type può assumere diversi valori. La verifica di ciascun valore nello script diventa difficoltosa. Ad esempio, alcuni documenti di Word presentano i valori del tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In tali casi, $main::search_content_class può assumere i seguenti valori:

    • html
    • pdf
    • word
    • excel
    • powerpoint
    • mp3
    • text
  • Nell'esempio, il test di $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori del tipo di contenuto.

  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come era stato scaricato. Se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.

  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, effettuate le seguenti operazioni: print "<html></html>";

Aggiunta di uno script di terminazione

Lo script di terminazione è uno script Perl che viene eseguito una volta che tutti i documenti sono indicizzati.

Lo script di terminazione viene utilizzato insieme a uno script di filtraggio, uno script di terminazione e uno script di maschere URL.

Assicuratevi di rigenerare l'indice del sito in modo che i risultati dello script di inizializzazione siano visibili ai clienti.

Vedere Configurazione di un indice incrementale di un sito Web in fase.

Per aggiungere uno script di terminazione

  1. Scegliere Settings > Filtering > Termination Script dal menu del prodotto.

  2. (Facoltativo) Nella pagina Termination Script, nel campo Test URL immettere l'URL di un documento sul sito Web.

    Fate clic su un'opzione di test per visualizzare le modifiche apportate al testo HTML non elaborato.

    Vedere la tabella delle opzioni di filtro in Aggiunta di uno script di filtro.

    Fate clic su Test per eseguire il test rispetto agli script di filtraggio e alle maschere URL.

    Facendo clic su Test non si aggiorna e si salva lo script di terminazione.

  3. Nel campo Termination Script, incollare lo script.

  4. (Facoltativo) Fare clic su Check Syntax per eseguire un controllo rapido della sintassi dello script eseguendo gli script di inizializzazione, filtro e terminazione.

    Check Syntax non aggiorna e salva lo script.

  5. Clic Save Changes.

  6. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.

    Vedere Configurazione di un indice incrementale di un sito Web in fase.

  7. (Facoltativo) Nella pagina Termination Script, effettuare una delle seguenti operazioni:

Script delle maschere URL

Il filtro consente di modificare il contenuto di un documento Web prima che venga indicizzato. Potete inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML basati sull'URL di un documento, sul tipo MIME e sul contenuto esistente. Lo script delle maschere URL è uno script Perl che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari.

Per modificare il contenuto dei documenti che esistono solo in una parte specifica del sito Web, potete specificare maschere URL, escludere maschere URL o entrambe per definire le pagine appropriate.

Se si desidera modificare solo i documenti in "https://www.mysite.com/faqs/", è possibile utilizzare il seguente set di maschere:

include https://www.mysite.com/faqs/ 
exclude *

Potete anche utilizzare l'espressione regolare in uno script di maschera URL come nell'esempio seguente:

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Vedere Espressioni regolari.

Le maschere URL con script vengono considerate nell'ordine in cui sono state immesse nel campo URL Masks. Quando un URL del documento corrisponde a una maschera, il documento viene incluso o escluso in base al tipo di maschera. Se l'URL di un documento non corrisponde ad alcuna maschera URL, il documento viene incluso solo se il relativo tipo MIME è "text/html". Sono esclusi tutti gli altri tipi MIME.

Aggiunta di uno script di maschera URL

Specificate l’URL per includere maschere ed escludere maschere per modificare il contenuto dei documenti che esistono solo in una parte specifica del sito Web.

Prima che gli effetti delle impostazioni delle maschere URL siano visibili ai visitatori, ricreate l’indice del sito.

Per aggiungere uno script di maschera URL

  1. Scegliere Settings > Filtering > URL Masks dal menu del prodotto.

  2. (Facoltativo) Nella pagina URL Masks, nel campo Test URL immettere l'URL di un documento sul sito Web, quindi fare clic su Test per verificare l'URL rispetto agli script e alle maschere di filtro.

    Viene scaricato il documento dell'URL di prova, che viene utilizzato come input STDIN per lo script di filtraggio. Vengono quindi eseguiti gli script di filtraggio, inizializzazione e terminazione. Se esiste un output STDOUT dello script di filtraggio che consente di visualizzare l'output in una nuova finestra del browser.

    Facendo clic su Test non si aggiorna e si salva lo script.

  3. Nel campo URL Masks, inserite una maschera URL per riga.

  4. (Facoltativo) Fate clic su Check Syntax per eseguire un controllo rapido della sintassi delle maschere URL eseguendo gli script di filtraggio, inizializzazione e terminazione.

    Check Syntax non aggiorna e salva lo script.

  5. Clic Save Changes.

  6. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.

    Vedere Configurazione di un indice incrementale di un sito Web in fase.

  7. (Facoltativo) Nella pagina URL Masks, effettuare una delle seguenti operazioni:

Informazioni sui tipi di contenuto nel filtro

Consente di selezionare i tipi di contenuto da filtrare per l'account.

Il testo trovato all'interno dei tipi di contenuto selezionati viene convertito in HTML e quindi elaborato utilizzando lo script specificato in Script di filtraggio.

Vedere Informazioni sul filtro degli script.

I tipi di contenuto tra cui è possibile selezionare comprendono:

  • Documenti PDF
  • Documenti di testo
  • Adobi Flash
  • File di Microsoft Word
  • File di Microsoft Office (OpenXML)
  • File di Microsoft Excel
  • File Microsoft PowerPoint
  • Testo in file musicali MP3

Prima che gli effetti delle impostazioni dei tipi di contenuto o le modifiche alle impostazioni siano visibili ai clienti, dovete ricreare l'indice del sito.

Selezione dei tipi di contenuto filtrati

Selezionare i tipi di contenuto che si desidera trasmettere allo script specificato in Script di filtraggio.

Vedere Informazioni sul filtro degli script.

Selezione dei tipi di contenuto filtrati

  1. Scegliere Settings > Filtering > Content Types dal menu del prodotto.

  2. Nella pagina Content Types verificare i tipi di contenuto che si desidera trasmettere allo script del filtro.

  3. Clic Save Changes.

  4. (Facoltativo) Per visualizzare in anteprima i risultati, ricreate l’indice del sito in fase di progettazione.

    Vedere Configurazione di un indice incrementale di un sito Web in fase.

  5. (Facoltativo) Nella pagina Content Types, effettuare una delle seguenti operazioni:

In questa pagina

Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free
Adobe Summit Banner

A virtual event April 27-28.

Expand your skills and get inspired.

Register for free