Informazioni sul menu Filtro

Utilizzare il menu Filtro per utilizzare gli script che modificano il contenuto di un documento Web prima dell'indicizzazione.

Informazioni sul filtro degli script

È possibile utilizzare Filtering Script per modificare il contenuto di un documento Web prima che venga indicizzato.

È possibile inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML in base all’URL di un documento, al tipo MIME e al contenuto esistente. Lo script di filtraggio è uno script Perl, che fornisce una potente gestione delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di filtraggio viene utilizzato con uno script di inizializzazione, uno script di terminazione, uno script di maschere URL e un URL di test.

Lo script di filtro viene eseguito ogni volta che un documento viene letto dal sito web. Lo script viene eseguito come filtro standard. In altre parole, legge i dati da STDIN, in qualche modo trasforma tali dati e scrive i risultati in STDOUT. È possibile utilizzare lo script di filtraggio per stampare i messaggi di stato dallo script di filtraggio al registro degli indici. È possibile stampare i messaggi su STDERR oppure tramite la subroutine _search_debug_log().

Alcune opzioni di differenze GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script di filtraggio pianificato, includono:

Opzione differenze GNU

Descrizione

-b

Ignora le modifiche nella quantità di spazio vuoto.

-B

Ignora le modifiche che inseriscono o eliminano righe vuote.

-c

Utilizza il formato di output del contesto, che mostra tre righe di contesto.

-C linee

Utilizza il formato di output del contesto, mostrando le righe (un numero intero) di contesto, o tre se non sono date righe.

-i

Ignora le modifiche nel caso; considera le lettere maiuscole e minuscole equivalenti.

-f

Esegue un output simile a uno script ed con modifiche nell’ordine in cui appaiono nel file.

-n

Trasmette diffusori in formato RCS; come -f tranne per il fatto che ogni comando specifica il numero di righe interessate.

-u

Utilizza il formato di output unificato, che mostra tre righe di contesto.

- Linee U

Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

È possibile utilizzare variabili locali, variabili globali o entrambi in questi script. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". Quando si avvia lo script di filtro, il relativo ambiente contiene i seguenti handle di file standard:

  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - HTML di sostituzione (se i dati vengono stampati su STDOUT, vengono utilizzati al posto del documento originale)
  • STDERR - i dati stampati su STDERR vengono stampati nel log indice come un errore

Inoltre, è possibile scrivere messaggi personalizzati nel registro dell'indice utilizzando la subroutine _search_debug_log(), come nell'esempio seguente:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.

Di seguito è riportato un esempio di filtro. I campi della pagina Web <title> spesso iniziano con il nome dell’azienda. Anche se queste informazioni sono utili per la navigazione nel sito, non sono pertinenti durante la ricerca. Se i titoli di tutte le pagine web MegaCorp iniziano con una stringa comune, ad esempio:

<title>MegaCorp -- meaningful title 
here</title>

Rimuovere " MegaCorp --" dall'inizio di ciascun titolo del documento e contare ogni documento elaborato con lo script di filtro. A questo scopo, è possibile utilizzare il seguente script:

# Make sure this is an HTML document. 
if ($main::ws_content_type =~ /^text\/html/) { 
    # Read the entire document into a local scalar variable. 
    my @docarray = <>; 
    my $doc = join("", @docarray); 
 
    # Remove "MegaCorp -- " from the title. 
    $doc =~ s/(<TITLE>)MegaCorp -- /$1/gis; 
 
    # Print the resulting document. 
    print $doc; 
 
    # Count that we've filtered one more document. 
    $main::doc_count++; 
}

Variabili globali

È possibile utilizzare le seguenti variabili in qualsiasi script di filtro:

Variabile Descrizione
$main::search_crawl_type Il valore di $main::search_crawl_type indica il tipo di operazione di indice in corso. Modulo obsoleto: $main::ws_crawl_type Le operazioni di indice e i valori associati includono quanto segue:
  • Indice completo: Manuale - manual
  • Indice completo: Pianificato - auto
  • Indice completo: Controllo remoto - CGI
  • Indice incrementale: Manuale - manual-incremental
  • Indice incrementale: Pianificato - auto-incremental
  • Indice incrementale: Controllo remoto - CGI-incremental
  • Indice con script: Manuale - manual-indexlist.txt
  • Indice con script: Pianificato - auto-indexlist.txt
  • Indice con script: Controllo remoto - CGI-indexlist.txt
  • Rigenera - manual-upgrade
$main::search_clear_cache Il valore indica se è stata richiesta l'opzione di indicizzazione "Clear index cache" per l'operazione di indicizzazione corrente. Se è stato richiesto "Clear index cache", il valore di $main::search_clear_cache è " 1". Forma obsoleta: $main::ws_clear_cache
$main::search_fields Il valore contiene un elenco separato da tabulazioni dei campi di metadati definiti nell’account. Per impostazione predefinita, il valore è: url title desc keys target body alt date charset language Modulo obsoleto: $main::ws_fields
$main::search_collections Il valore contiene un elenco separato da tabulazioni delle Raccolte definite nell’account. Forma obsoleta: $main::ws_collections
$main::search_url Il valore è l’URL completo del documento. Forma obsoleta: $main::ws_url
$main::search_content_type Il valore è il tipo di contenuto del documento recuperato dal tag meta http-equiv. Un valore tipico è "text/html; charset=iso-8859-1". Forma obsoleta: $main::ws_content_type
$main::search_content_class Il valore è la classe di contenuto del documento, come derivato dal campo del tipo di contenuto. Forma obsoleta: $main::ws_content_class
$main::search_syntax_check Il valore riflette l’utilizzo del pulsante "Controlla sintassi". Se l’utente fa clic su di esso, il valore è 1 (uno); in caso contrario, il relativo valore è 0 (zero). Forma obsoleta: $main::ws_syntax_check
$main::search_last_mod_date Se fornito dal server web, questo valore contiene la rappresentazione epoch (secondi dal 1° gennaio 1970) della data dell'ultima modifica del documento. Puoi formattare questo valore utilizzando la chiamata alla libreria Perl localtime() .

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio dei nomi "main::": $main::doc_count = 0;

  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;

  • Le sottorubriche sono definite nello script di inizializzazione. Non è necessario un namespace esplicito "main::": sub my_sub { ...

    }

  • Testa $main::search_content_type prima di apportare modifiche a un file. Il test può aiutare a evitare di apportare modifiche imprudenti ai file binari, come i file SWF o i file PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • L’ $main::search_content_type è l’intestazione Content-Type completa consegnata dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica del set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".

  • Per ogni tipo di documento non HTML, $main::search_content_type può assumere diversi valori. Il test di ogni valore nello script diventa ingombrante. Ad esempio, alcuni documenti Word presentano valori di tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In questi casi, $main::search_content_class può assumere i seguenti valori:

    • html
    • pdf
    • word
    • eccellere
    • powerpoint
    • mp3
    • text
  • Nell’esempio, il test di $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori di tipo di contenuto.

  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come è stato scaricato. In altre parole, se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.

  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, eseguire le operazioni seguenti: print "<html></html>";

Aggiunta di uno script di filtro

Lo script di filtraggio è uno script Perl che viene eseguito per ogni documento scaricato dal sito web.

Utilizza lo script di filtro in combinazione con uno script di inizializzazione, uno script di terminazione e uno script di maschere URL.

Assicurati di ricostruire l'indice del sito in modo che i risultati dello script di filtraggio siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per aggiungere uno script di filtraggio

  1. Dal menu del prodotto, fai clic su Settings > Filtering > Filtering Script.

  2. (Facoltativo) Nella pagina Filtering Script , immetti l’URL di un documento sul sito web nel campo Test URL .

    Fai clic su un'opzione di test per visualizzare le modifiche al testo HTML non elaborato.

    Opzione

    Descrizione

    Campo URL di prova

    Consente di inserire l’URL di un documento sul sito web.

    Test

    Verifica l’URL rispetto agli script di filtraggio e alle maschere URL.

    Viene scaricato il documento dell’URL di test, che viene quindi utilizzato come input STDIN per lo script di filtro. Vengono quindi eseguiti gli script di inizializzazione, filtro e terminazione. Se è presente un output STDOUT dallo script di filtraggio, tale output viene visualizzato in una nuova finestra del browser.

    Solo test

    Verifica solo il funzionamento dello script.

    Anteprima

    Consente di visualizzare la pagina.

    Visiva completa

    Genera una visualizzazione completa dei documenti prima e dopo la tabella.

    Visualizzazione a breve

    Mostra solo le differenze tra le viste prima e dopo.

    Esperto (diff)

    Visualizza l'output non elaborato del comando GNU diff utilizzato per confrontare i file, utilizzando le opzioni della riga di comando fornite.

    Script di filtro

    Consente di incollare lo script di filtro nel campo fornito.

    Salva le modifiche

    Salva lo script di filtro.

    Controlla sintassi

    Consente di eseguire un controllo rapido della sintassi dello script eseguendo gli script di inizializzazione, filtraggio e terminazione. Non aggiorna e salva lo script.

    Vengono stampati tutti gli errori e gli avvisi del compilatore Perl e tutti gli output STDERR.

    Prima che gli effetti dello script siano visibili ai clienti, è necessario ricostruire l'indice del sito.

    Opzioni della riga di comando GNU diff

    Alcune opzioni di differenze GNU che è possibile utilizzare in modalità Expert (diff) nella pagina Script di filtraggio pianificato, includono:

    Opzione della riga di comando GNU diff

    Descrizione

    -b

    Ignora le modifiche nella quantità di spazio vuoto.

    -B

    Ignora le modifiche che inseriscono o eliminano righe vuote.

    -c

    Utilizza il formato di output del contesto, che mostra tre righe di contesto.

    -C linee

    Utilizza il formato di output del contesto, mostrando le righe (un numero intero) di contesto, o tre se non sono date righe.

    -i

    Ignora le modifiche nel caso; considera le lettere maiuscole e minuscole equivalenti.

    -f

    Esegue un output simile a uno script ed con modifiche nell’ordine in cui appaiono nel file.

    -n

    Trasmette diffusori in formato RCS; come -f tranne per il fatto che ogni comando specifica il numero di righe interessate.

    -u

    Utilizza il formato di output unificato, che mostra tre righe di contesto.

    - Linee U

    Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

  3. Fai clic su Test per eseguire il test rispetto agli script di filtro e alle maschere URL.

    Se si fa clic su Test non viene aggiornato e salvato lo script di filtro.

  4. Nel campo Filtering Script , incolla lo script.

  5. (Facoltativo) Fai clic su Check Syntax per eseguire un controllo rapido della sintassi dello script eseguendo gli script di filtro, inizializzazione e terminazione.

    Check Syntax non aggiorna e salva lo script.

  6. Clic Save Changes.

  7. (Facoltativo) Ricostruisci l'indice del sito di staging per visualizzare in anteprima i risultati.

    Consulta Configurazione di un indice incrementale di un sito web organizzato.

  8. (Facoltativo) Nella pagina Filtering Script , effettua una delle seguenti operazioni:

Informazioni sullo script di inizializzazione

È possibile utilizzare Initialization Script per modificare il contenuto di un documento Web prima che venga indicizzato.

È possibile inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML in base all’URL di un documento, al tipo MIME e al contenuto esistente. Lo script di inizializzazione è uno script Perl, che fornisce una potente gestione delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Utilizza lo script di inizializzazione con uno script di filtro, uno script di terminazione, uno script di maschere URL e un URL di prova.

Lo script di inizializzazione viene eseguito una volta prima dell'inizio dell'indicizzazione. Usare questo script per inizializzare le variabili globali e le sottoroutine utilizzate dallo script di filtro. È possibile utilizzare lo script di inizializzazione per stampare i messaggi di stato dallo script di filtraggio al registro dell'indice. È possibile stampare i messaggi su STDERR oppure tramite la subroutine _search_debug_log().

Alcune opzioni di differenze GNU utilizzabili in modalità Expert (diff) nella pagina Script di inizializzazione temporanea includono:

Opzione differenze GNU

Descrizione

-b

Ignora le modifiche nella quantità di spazio vuoto.

-B

Ignora le modifiche che inseriscono o eliminano righe vuote.

-c

Utilizza il formato di output del contesto, che mostra tre righe di contesto.

-C linee

Utilizza il formato di output del contesto, mostrando le righe (un numero intero) di contesto, o tre se non sono date righe.

-i

Ignora le modifiche nel caso; considera le lettere maiuscole e minuscole equivalenti.

-f

Esegue un output simile a uno script ed con modifiche nell’ordine in cui appaiono nel file.

-n

Trasmette diffusori in formato RCS; come -f tranne per il fatto che ogni comando specifica il numero di righe interessate.

-u

Utilizza il formato di output unificato, che mostra tre righe di contesto.

- Linee U

Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

È possibile utilizzare variabili locali, variabili globali o entrambi in questi script. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". Quando si avvia lo script di inizializzazione, il relativo ambiente contiene i seguenti handle di file standard:

  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - niente (se i dati vengono stampati su STDOUT, vengono scartati)
  • STDERR - i dati stampati su STDERR vengono stampati nel log indice come un errore

Inoltre, è possibile scrivere messaggi personalizzati nel registro dell'indice utilizzando la subroutine _search_debug_log(), come nell'esempio seguente:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.

Un esempio di script di inizializzazione è il seguente:

# My subroutine to do something. 
sub my_sub_for_the_filtering_script { 
    my ($param1, $param2) = @_; 
    ... 
} 
 
# Initialize the document counter. 
$main::doc_count = 0;

Vedere Variabili globali

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio dei nomi "main::": $main::doc_count = 0;

  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;

  • Le sottorubriche sono definite nello script di inizializzazione. Non è necessario un namespace esplicito "main::": sub my_sub { ...

    }

  • Testa $main::search_content_type prima di apportare modifiche a un file. Il test può aiutare a evitare di apportare modifiche imprudenti ai file binari, come i file SWF o i file PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • L’ $main::search_content_type è l’intestazione Content-Type completa consegnata dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica del set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".

  • Per ogni tipo di documento non HTML, $main::search_content_type può assumere diversi valori. Il test di ogni valore nello script diventa ingombrante. Ad esempio, alcuni documenti Word presentano valori di tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In questi casi, $main::search_content_class può assumere i seguenti valori:

    • html
    • pdf
    • word
    • eccellere
    • powerpoint
    • mp3
    • text
  • Nell’esempio, il test di $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori di tipo di contenuto.

  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come è stato scaricato. In altre parole, se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.

  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, eseguire le operazioni seguenti: print "<html></html>";

Aggiunta di uno script di inizializzazione

Lo script di inizializzazione è uno script Perl che viene eseguito una volta prima dell'indicizzazione di qualsiasi documento.

Utilizza lo script di inizializzazione insieme a uno script di filtro, script di terminazione e script di maschere URL.

Assicurati di ricostruire l'indice del sito in modo che i risultati dello script di inizializzazione siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per aggiungere uno script di inizializzazione

  1. Dal menu del prodotto, fai clic su Settings > Filtering > Initialization Script.

  2. (Facoltativo) Nella pagina Initialization Script , immetti l’URL di un documento sul sito web nel campo Test URL .

    Fai clic su un'opzione di test per visualizzare le modifiche al testo HTML non elaborato.

    Vedi la tabella delle opzioni di filtro in Aggiunta di uno script di filtro.

    Fai clic su Test per eseguire il test rispetto agli script di filtro e alle maschere URL.

    Se si fa clic su Test non viene aggiornato e salvato lo script di inizializzazione.

  3. Nel campo Initialization Script , incolla lo script.

  4. (Facoltativo) Fai clic su Check Syntax per eseguire un controllo rapido della sintassi dello script eseguendo gli script di filtro, inizializzazione e terminazione.

    Check Syntax non aggiorna e salva lo script.

  5. Clic Save Changes.

  6. (Facoltativo) Ricostruisci l'indice del sito di staging per visualizzare in anteprima i risultati.

    Consulta Configurazione di un indice incrementale di un sito web organizzato.

  7. (Facoltativo) Nella pagina Initialization Script , effettua una delle seguenti operazioni:

Informazioni sullo script di terminazione

È possibile utilizzare Termination Script per modificare il contenuto di un documento Web prima che venga indicizzato.

È possibile inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML in base all’URL di un documento, al tipo MIME e al contenuto esistente. Lo script di inizializzazione è uno script Perl, che fornisce una potente gestione delle stringhe e la flessibilità della corrispondenza delle espressioni regolari. Lo script di terminazione viene utilizzato con uno script di inizializzazione, uno script di filtraggio, uno script di terminazione, uno script di maschere URL e un URL di test.

Lo script di terminazione viene eseguito una volta che tutti i documenti sono indicizzati. È possibile utilizzare lo script di terminazione per stampare i messaggi di stato dallo script di filtraggio al registro dell'indice. È possibile stampare i messaggi su STDERR oppure tramite la subroutine _search_debug_log().

Alcune opzioni della riga di comando GNU diff che è possibile utilizzare in modalità Expert (diff) nella pagina Script di terminazione temporanea includono:

Opzione della riga di comando GNU diff

Descrizione

-b

Ignora le modifiche nella quantità di spazio vuoto.

-B

Ignora le modifiche che inseriscono o eliminano righe vuote.

-c

Utilizza il formato di output del contesto, che mostra tre righe di contesto.

-C linee

Utilizza il formato di output del contesto, mostrando le righe (un numero intero) di contesto, o tre se non sono date righe.

-i

Ignora le modifiche nel caso; considera le lettere maiuscole e minuscole equivalenti.

-f

Esegue un output simile a uno script ed con modifiche nell’ordine in cui appaiono nel file.

-n

Trasmette diffusori in formato RCS; come -f tranne per il fatto che ogni comando specifica il numero di righe interessate.

-u

Utilizza il formato di output unificato, che mostra tre righe di contesto.

- Linee U

Utilizza il formato di output unificato, che mostra le righe (un numero intero) del contesto, o tre se non sono date righe.

È possibile utilizzare variabili locali, variabili globali o entrambi in questi script. Tutte le variabili globali sono precedute dallo spazio dei nomi "main::". Quando si avvia lo script di terminazione, il relativo ambiente contiene i seguenti handle di file standard:

  • STDIN - nulla (restituisce immediatamente EOF in lettura)
  • STDOUT - niente (se i dati vengono stampati su STDOUT, vengono scartati)
  • STDERR - i dati stampati su STDERR vengono stampati nel registro dell'indice come un errore

Inoltre, è possibile scrivere messaggi personalizzati nel registro dell'indice utilizzando la subroutine _search_debug_log(), come nell'esempio seguente:

# Log information to the Index Log 
_search_debug_log("Done processing document: " . $main::search_url);

Questi messaggi vengono visualizzati con la parola DEBUG come prefisso e non vengono registrati come errori.

Per visualizzare il numero di documenti elaborati dallo script di filtraggio come riga di errore nel registro degli indici, è possibile utilizzare il seguente script di terminazione:

# Print the value of the document counter. 
print STDERR "Total docs: $main::doc_count\n"; 
# Or, using the log subroutine: 
_search_debug_log("Total docs: " . $main::doc_count);

Vedere Variabili globali

Suggerimenti rapidi

  • Tutte le variabili globali sono precedute dallo spazio dei nomi "main::": $main::doc_count = 0;

  • Tutte le variabili locali sono dichiarate con "my": my $i = 0;

  • Le sottorubriche sono definite nello script di inizializzazione. Non è necessario un namespace esplicito "main::": sub my_sub { ...

    }

  • Testa $main::search_content_type prima di apportare modifiche a un file. Il test può aiutare a evitare di apportare modifiche imprudenti ai file binari, come i file SWF o i file PDF:

    if ($main::search_content_type =~ /^text\/html/) { ...

  • L’ $main::search_content_type è l’intestazione Content-Type completa consegnata dal server. A volte può contenere un semplice tipo MIME, ad esempio "text/html". Oppure può contenere un tipo MIME seguito da altre informazioni, come la codifica del set di caratteri del documento, ad esempio "text/html; charset=iso-8859-1".

  • Per ogni tipo di documento non HTML, $main::search_content_type può assumere diversi valori. Il test di ogni valore nello script diventa ingombrante. Ad esempio, alcuni documenti Word presentano valori di tipo di contenuto "application/mspada", "application/vnd.ms-word" o "application/x-mspada". In questi casi, $main::search_content_class può assumere i seguenti valori:

    • html
    • pdf
    • word
    • eccellere
    • powerpoint
    • mp3
    • text
  • Nell’esempio, il test di $main::search_content_class per "word" corrisponderebbe a uno dei tre possibili valori di tipo di contenuto.

  • Se non viene stampato nulla a STDOUT dallo script di filtraggio, il documento viene utilizzato esattamente come è stato scaricato. In altre parole, se non è necessario modificare nulla in un documento, non è necessario copiare STDIN in STDOUT per quel documento.

  • Se si desidera rimuovere tutto il testo da un documento, stampare un file STDOUT valido. Ad esempio, per rimuovere completamente tutto il testo da un documento HTML, eseguire le operazioni seguenti: print "<html></html>";

Aggiunta di uno script di terminazione

Lo script di terminazione è uno script Perl che viene eseguito una volta che tutti i documenti sono indicizzati.

Lo script di terminazione viene utilizzato insieme a uno script di filtraggio, uno script di terminazione e uno script di maschere URL.

Assicurati di ricostruire l'indice del sito in modo che i risultati dello script di inizializzazione siano visibili ai clienti.

Consulta Configurazione di un indice incrementale di un sito web organizzato.

Per aggiungere uno script di terminazione

  1. Dal menu del prodotto, fai clic su Settings > Filtering > Termination Script.

  2. (Facoltativo) Nella pagina Termination Script , immetti l’URL di un documento sul sito web nel campo Test URL .

    Fai clic su un'opzione di test per visualizzare le modifiche al testo HTML non elaborato.

    Vedi la tabella delle opzioni di filtro in Aggiunta di uno script di filtro.

    Fai clic su Test per eseguire il test rispetto agli script di filtro e alle maschere URL.

    Facendo clic su Test non si aggiorna e si salva lo script di terminazione.

  3. Nel campo Termination Script , incolla lo script.

  4. (Facoltativo) Fai clic su Check Syntax per eseguire un controllo rapido della sintassi dello script eseguendo gli script di inizializzazione, filtraggio e terminazione.

    Check Syntax non aggiorna e salva lo script.

  5. Clic Save Changes.

  6. (Facoltativo) Ricostruisci l'indice del sito di staging per visualizzare in anteprima i risultati.

    Consulta Configurazione di un indice incrementale di un sito web organizzato.

  7. (Facoltativo) Nella pagina Termination Script , effettua una delle seguenti operazioni:

Informazioni sullo script delle maschere URL

Con il filtro, è possibile modificare il contenuto di un documento web prima che venga indicizzato. È possibile inserire tag HTML, rimuovere contenuti irrilevanti e persino creare nuovi metadati HTML in base all’URL di un documento, al tipo MIME e al contenuto esistente. Lo script delle maschere URL è uno script Perl che fornisce una gestione efficace delle stringhe e la flessibilità della corrispondenza delle espressioni regolari.

Per modificare il contenuto dei documenti esistenti solo in una parte specifica del sito web, puoi specificare maschere URL, maschere URL escluse o entrambe per definire le pagine appropriate.

Se si desidera modificare solo i documenti in "https://www.mysite.com/faqs/", è possibile utilizzare il seguente set di maschere:

include https://www.mysite.com/faqs/ 
exclude *

Puoi anche utilizzare l’espressione regolare in uno script di maschera URL come nell’esempio seguente:

include regexp ^https://www\.mysite\.com.*/faqs/.*$ 
exclude *

Consulta Espressioni regolari.

Le maschere URL con script vengono considerate nell’ordine in cui sono state inserite nel campo URL Masks . Quando un URL di un documento corrisponde a una maschera, il documento viene incluso o escluso in base al tipo di maschera. Se l’URL di un documento non corrisponde ad alcuna maschera URL, il documento viene incluso solo se il relativo tipo MIME è "text/html". Sono esclusi tutti gli altri tipi MIME.

Aggiunta di uno script di maschera URL

L’URL include maschere ed esclude maschere per modificare il contenuto dei documenti esistenti solo in una parte specifica del sito web.

Prima che gli effetti delle impostazioni delle maschere URL siano visibili ai visitatori, ricostruisci l'indice del sito.

Per aggiungere uno script di maschera URL

  1. Dal menu del prodotto, fai clic su Settings > Filtering > URL Masks.

  2. (Facoltativo) Nella pagina URL Masks, nel campo Test URL immetti un URL di un documento sul sito web, quindi fai clic su Test per verificare l’URL rispetto agli script e alle maschere di filtraggio.

    Viene scaricato il documento dell’URL di test, utilizzato come input STDIN per lo script di filtraggio. Vengono quindi eseguiti gli script di filtro, inizializzazione e terminazione. Se c'è un output STDOUT dallo script di filtraggio che l'output viene visualizzato in una nuova finestra del browser.

    Se si fa clic su Test non si aggiorna e si salva lo script.

  3. Nel campo URL Masks , immetti una maschera URL per riga.

  4. (Facoltativo) Fai clic su Check Syntax per eseguire un controllo rapido della sintassi delle maschere URL eseguendo gli script di filtro, inizializzazione e terminazione.

    Check Syntax non aggiorna e salva lo script.

  5. Clic Save Changes.

  6. (Facoltativo) Ricostruisci l'indice del sito di staging per visualizzare in anteprima i risultati.

    Consulta Configurazione di un indice incrementale di un sito web organizzato.

  7. (Facoltativo) Nella pagina URL Masks , effettua una delle seguenti operazioni:

Informazioni sui tipi di contenuto nel filtro

Consente di selezionare i tipi di contenuto che si desidera filtrare per questo account.

Il testo trovato all’interno dei tipi di contenuto selezionati viene convertito in HTML e quindi elaborato utilizzando lo script specificato in Script di filtraggio.

Vedere Informazioni sul filtro di script.

I tipi di contenuto selezionabili sono i seguenti:

  • documenti PDF
  • Documenti di testo
  • Adobe di film di Flash
  • File di Microsoft Word
  • File di Microsoft Office (OpenXML)
  • File di Microsoft Excel
  • File Microsoft Powerpoint
  • Testo in file musicali MP3

Prima che gli effetti delle impostazioni o delle modifiche dei tipi di contenuto siano visibili ai clienti, è necessario ricreare l'indice del sito.

Selezione dei tipi di contenuto filtrati

Selezionare i tipi di contenuto che si desidera passare allo script specificato in Script di filtraggio.

Vedere Informazioni sul filtro di script.

Selezione dei tipi di contenuto filtrati

  1. Dal menu del prodotto, fai clic su Settings > Filtering > Content Types.

  2. Nella pagina Content Types , controlla i tipi di contenuto che desideri passare allo script del filtro.

  3. Clic Save Changes.

  4. (Facoltativo) Ricostruisci l'indice del sito di staging per visualizzare in anteprima i risultati.

    Consulta Configurazione di un indice incrementale di un sito web organizzato.

  5. (Facoltativo) Nella pagina Content Types , effettua una delle seguenti operazioni:

In questa pagina

Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now