Über das Menü "Crawling"

Verwenden Sie das Crawling-Menü für Datums- und URL-Masken, Kennwörter, Content-Typen, Verbindungen, Formulardefinitionen und URL-Einstiegspunkte.

Über URL-Einstiegspunkte

Die meisten Websites verfügen über einen primären Einstiegspunkt oder eine primäre Homepage, die/die ein Kunde zunächst besucht. Dieser Haupteinstiegspunkt ist die URL-Adresse, von der aus der Suchroboter das Index-Crawling beginnt. Wenn Ihre Website jedoch mehrere Domänen oder Subdomänen hat oder Teile Ihrer Site nicht vom primären Einstiegspunkt aus verknüpft sind, können Sie URL-Einstiegspunkte verwenden, um weitere Einstiegspunkte hinzuzufügen.

Alle Website-Seiten unter jedem angegebenen URL-Einstiegspunkt werden indiziert. Sie können URL-Einstiegspunkte mit Masken kombinieren, um genau zu steuern, welche Teile einer Website Sie indizieren möchten. Sie müssen Ihren Website-Index neu erstellen, bevor die Auswirkungen der URL-Entrypoints-Einstellungen für Kunden sichtbar sind.

Der Haupteinstiegspunkt ist normalerweise die URL der Website, die Sie indizieren und suchen möchten. Sie konfigurieren diesen Haupteinstiegspunkt in den Kontoeinstellungen.

Siehe Konfigurieren Ihrer Kontoeinstellungen.

Nachdem Sie den Einstiegspunkt der Haupt-URL angegeben haben, können Sie optional zusätzliche Einstiegspunkte angeben, die Sie in der richtigen Reihenfolge durchsuchen möchten. Meistens geben Sie zusätzliche Einstiegspunkte für Webseiten an, die nicht von Seiten unter dem Haupteinstiegspunkt verknüpft sind. Geben Sie zusätzliche Einstiegspunkte an, wenn Ihre Website mehr als eine Domäne umfasst, wie im folgenden Beispiel gezeigt:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

Sie qualifizieren jeden Einstiegspunkt mit einem oder mehreren der folgenden durch Leerzeichen getrennten Suchbegriffe in der unten stehenden Tabelle. Diese Suchbegriffe beeinflussen, wie die Seite indiziert wird.

Wichtig: Trennen Sie einen bestimmten Suchbegriff vom Einstiegspunkt und voneinander durch ein Leerzeichen. Ein Komma ist kein gültiges Trennzeichen.

Suchbegriff

Beschreibung

noindex

Wenn Sie den Text nicht auf der Einstiegspunktseite indizieren möchten, aber die Links der Seite befolgen möchten, fügen Sie noindex nach dem Einstiegspunkt.

Trennen Sie das Schlüsselwort vom Einstiegspunkt durch ein Leerzeichen, wie im folgenden Beispiel gezeigt:

https://www.my-additional-domain.com/more_pages/main.html noindex

Dieses Keyword entspricht einem Roboter-Meta-Tag mit content="noindex" ) zwischen dem <head> ... </head> Tags der Einstiegspunktseite.

nofollow

Wenn Sie den Text auf der Einstiegspunktseite indizieren möchten, aber keinem der Links der Seite folgen möchten, fügen Sie nofollow nach dem Einstiegspunkt.

Trennen Sie das Schlüsselwort vom Einstiegspunkt durch ein Leerzeichen, wie im folgenden Beispiel gezeigt:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Dieses Keyword entspricht einem Roboter-Meta-Tag mit content="nofollow" zwischen den <head> ... </head> -Tag einer Einstiegspunktseite.

Formular

Wenn der Einstiegspunkt eine Anmeldeseite ist, form wird normalerweise verwendet, damit der Suchroboter das Anmeldeformular senden und die entsprechenden Cookies empfangen kann, bevor er die Website durchsucht. Wenn das Keyword "form"verwendet wird, wird die Einstiegspunktseite nicht indiziert und der Suchroboter markiert die Einstiegspunktseite nicht als durchsucht. Verwendung nofollow , wenn Sie nicht möchten, dass der Suchroboter den Links der Seite folgt.

Siehe auch Über Content-Typen.

Siehe auch Info über Index Connector.

Hinzufügen mehrerer URL-Einstiegspunkte, die indiziert werden sollen

Wenn Ihre Website über mehrere Domänen oder Subdomänen verfügt und diese durchsucht werden sollen, können Sie URL-Einstiegspunkte verwenden, um weitere URLs hinzuzufügen.

Um den Einstiegspunkt Ihrer Website für die Haupt-URL festzulegen, verwenden Sie Kontoeinstellungen.

Siehe Konfigurieren Ihrer Kontoeinstellungen.

So fügen Sie mehrere URL-Einstiegspunkte hinzu, die indiziert werden sollen

  1. Klicken Sie im Produktmenü auf Settings > Crawling > URL Entrypoints.

  2. Geben Sie auf der Seite URL Entrypoints im Feld Entrypoints eine URL-Adresse pro Zeile ein.

  3. (Optional) Wählen Sie in der Dropdownliste Add Index Connector Configurations einen Index-Connector aus, den Sie als Einstiegspunkt für die Indizierung hinzufügen möchten.

    Die Dropdown-Liste ist nur verfügbar, wenn Sie zuvor eine oder mehrere Indexverbindungsdefinitionen hinzugefügt haben.

    Siehe Hinzufügen einer Index Connector-Definition.

  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Über URL-Masken

URL-Masken sind Muster, die bestimmen, welche von Ihrer Website die Suchroboterindizes dokumentiert oder nicht Indizes.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Im Folgenden finden Sie zwei Arten von URL-Masken, die Sie verwenden können:

  • URL-Masken einschließen
  • URL-Masken ausschließen

URL-Masken einschließen : Weisen Sie den Suchroboter an, alle Dokumente zu indizieren, die dem Muster der Maske entsprechen.

Ausschließen von URL-Masken weisen den Suchroboter an, übereinstimmende Dokumente zu indizieren.

Während der Suchroboter von einem Link zum Link durch Ihre Website reist, findet er URLs und sucht nach Masken, die mit diesen URLs übereinstimmen. Die erste Übereinstimmung bestimmt, ob diese URL in den Index aufgenommen oder daraus ausgeschlossen werden soll. Wenn keine Maske mit einer aufgefundenen URL übereinstimmt, wird diese URL aus dem Index verworfen.

URL-Masken für Einstiegspunkt-URLs einschließen werden automatisch generiert. Dadurch wird sichergestellt, dass alle auf Ihrer Website gefundenen Dokumente indiziert sind. Es entfernt auch bequem Links, die Ihre Website "verlassen". Wenn beispielsweise eine indizierte Seite auf https://www.yahoo.com verweist, indiziert der Suchroboter diese URL nicht, da sie nicht mit der Einschlussmaske übereinstimmt, die automatisch von der Einstiegspunkt-URL generiert wird.

Jede URL-Maske, die Sie angeben, muss sich in einer separaten Zeile befinden.

Die Maske kann Folgendes angeben:

  • Ein vollständiger Pfad wie in https://www.mydomain.com/products.html.

  • Ein partieller Pfad wie in https://www.mydomain.com/products.

  • Eine URL, die Platzhalter wie in https://www.mydomain.com/*.html verwendet.

  • Ein regulärer Ausdruck (für fortgeschrittene Benutzer).

    Um eine Maske zu einem regulären Ausdruck zu machen, fügen Sie das Keyword regexp zwischen dem Maskentyp ( exclude oder include) und der URL-Maske ein.

Im Folgenden finden Sie ein einfaches Beispiel für eine URL-Maske zum Ausschließen:

exclude https://www.mydomain.com/photos

Da dieses Beispiel eine Ausschluss-URL-Maske ist, wird jedes Dokument, das dem Muster entspricht, nicht indiziert. Das Muster stimmt alle gefundenen Elemente, sowohl Dateien als auch Ordner, überein, sodass https://www.mydomain.com/photos.html und https://www.mydomain.com/photos/index.html, die beide mit der Ausschluss-URL übereinstimmen, nicht indiziert werden. Um nur Dateien im Ordner /photos/ zuzuordnen, muss die URL-Maske einen Schrägstrich wie im folgenden Beispiel enthalten:

exclude https://www.mydomain.com/photos/

Im folgenden Beispiel für Ausschlussmasken wird eine Platzhalter verwendet. Er weist den Suchroboter an, Dateien mit der Erweiterung ".pdf"zu übersehen. Der Suchroboter fügt diese Dateien nicht zu Ihrem Index hinzu.

exclude *.pdf

Eine einfache Einschließen-URL-Maske ist:

include https://www.mydomain.com/news/

Es werden nur Dokumente indiziert, die über eine Reihe von Links von einem URL-Einstiegspunkt aus verknüpft sind oder die als URL-Einstiegspunkt selbst verwendet werden. Die bloße Auflistung der URL eines Dokuments als Einschluss-URL-Maske indiziert kein nicht verknüpftes Dokument. Um Ihrem Index nicht verknüpfte Dokumente hinzuzufügen, können Sie die Funktion URL-Einstiegspunkte verwenden.

Siehe Über URL-Endpunkte.

Masken einschließen und ausschließen können zusammenarbeiten. Sie können einen großen Teil Ihrer Website aus der Indizierung ausschließen, indem Sie eine URL-Maske zum Ausschließen erstellen, jedoch eine oder mehrere der ausgeschlossenen Seiten mit einer URL-Maske zum Einschließen einschließen. Angenommen, Ihre Einstiegspunkt-URL lautet wie folgt:

https://www.mydomain.com/photos/

Der Suchroboter durchsucht und indiziert alle Seiten unter /photos/summer/, /photos/spring/ und /photos/fall/ (vorausgesetzt, es gibt Links zu mindestens einer Seite in jedem Verzeichnis aus dem Ordner photos ). Dieses Verhalten tritt auf, weil die Link-Pfade es dem Suchroboter ermöglichen, die Dokumente in den Ordnern /summer/, /spring/ und /fall/ zu finden, und die Ordner-URLs mit der Include-Maske übereinstimmen, die automatisch von der Einstiegspunkt-URL generiert wird.

Sie können alle Seiten im Ordner /fall/ mit einer Ausschluss-URL-Maske ausschließen, wie im folgenden Beispiel gezeigt:

exclude https://www.mydomain.com/photos/fall/

Oder fügen Sie selektiv nur /photos/fall/redleaves4.html als Teil des Index mit der folgenden URL-Maske hinzu:

include https://www.mydomain.com/photos/fall/redleaves4.html

Damit die beiden oben genannten Maskenbeispiele wie gewünscht funktionieren, wird zuerst die Einschlussmaske aufgelistet, wie im folgenden Beispiel:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Da der Suchroboter den Anweisungen in der Reihenfolge folgt, in der sie aufgelistet sind, schließt der Suchroboter zunächst /photos/fall/redleaves4.html ein und schließt dann die restlichen Dateien im Ordner /fall aus.

Wenn die Anweisungen in umgekehrter Weise wie in der folgenden angegeben sind:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Dann ist /photos/fall/redleaves4.html nicht enthalten, auch wenn die Maske angibt, dass sie eingeschlossen ist.

Eine URL-Maske, die zuerst angezeigt wird, hat immer Vorrang vor einer URL-Maske, die später in den Maskeneinstellungen angezeigt wird. Wenn der Suchroboter außerdem auf eine Seite trifft, die mit einer Einschluss-URL-Maske und einer Ausschluss-URL-Maske übereinstimmt, hat die zuerst aufgeführte Maske immer Vorrang.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Über die Verwendung von Keywords mit URL-Masken

Sie können jede Einschlussmaske mit einem oder mehreren durch Leerzeichen getrennten Keywords qualifizieren, die sich auf die Indexierung der übereinstimmenden Seiten auswirken.

Ein Komma ist nicht als Trennzeichen zwischen der Maske und dem Keyword gültig. Sie können nur Leerzeichen verwenden.

Suchbegriff

Beschreibung

noindex

Wenn Sie den Text nicht auf den Seiten indizieren möchten, die mit der URL-Maske übereinstimmen, aber die entsprechenden Seiten-Links befolgen möchten, fügen Sie noindex nach der Include URL mask. Stellen Sie sicher, dass Sie den Suchbegriff von der Maske durch ein Leerzeichen trennen, wie im folgenden Beispiel gezeigt:

include&nbsp;*.swf&nbsp;noindex

Das obige Beispiel gibt an, dass der Suchroboter allen Links aus Dateien mit der .swf -Erweiterung, aber deaktiviert die Indizierung des gesamten Textes, der in diesen Dateien enthalten ist.

Die noindex Keyword entspricht einem Roboter-Meta-Tag mit content="noindex" zwischen den <head>...</head> Tags übereinstimmender Seiten.

nofollow

Wenn Sie den Text auf den Seiten indizieren möchten, die mit der URL-Maske übereinstimmen, aber nicht den Links der übereinstimmenden Seite folgen möchten, fügen Sie nofollow nach der Include URL mask. Stellen Sie sicher, dass Sie den Suchbegriff von der Maske durch ein Leerzeichen trennen, wie im folgenden Beispiel gezeigt:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Die nofollow Keyword entspricht einem Roboter-Meta-Tag mit content="nofollow" zwischen den <head>...</head> Tags übereinstimmender Seiten.

regexp

Wird sowohl für Einschluss- als auch für Ausschlussmasken verwendet.

Jede URL-Maske mit vorangestelltem regexp wird als regulärer Ausdruck behandelt. Wenn der Suchroboter auf Dokumente trifft, die mit einer URL-Maske für reguläre Ausdrücke übereinstimmen, werden diese Dokumente nicht indiziert. Wenn der Suchroboter auf Dokumente trifft, die mit einer URL-Maske für reguläre Ausdrücke übereinstimmen, werden diese Dokumente indiziert. Angenommen, Sie haben die folgende URL-Maske:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

Der Suchroboter schließt übereinstimmende Dateien wie https://www.mydomain.com/products/page1.html

Wenn Sie die folgende URL-Maske für reguläre Ausdrücke ausschließen hatten:

exclude&nbsp;regexp&nbsp;^.*\?..*$

Der Suchroboter darf keine URL mit einem CGI-Parameter wie https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Wenn Sie über die folgende URL-Maske für reguläre Ausdrücke verfügen:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

Der Suchroboter folgt allen Links aus Dateien mit der Erweiterung ".swf". Die noindex -Keyword gibt auch an, dass der Text von übereinstimmenden Dateien nicht indiziert ist.

Siehe Reguläre Ausdrücke .

Hinzufügen von URL-Masken zum Index oder nicht zum Indexieren von Teilen Ihrer Website

Sie können URL Masks verwenden, um festzulegen, welche Teile Ihrer Website durchsucht und indiziert werden sollen oder nicht.

Verwenden Sie das Feld "URL-Masken testen", um zu testen, ob ein Dokument nach dem Index enthalten ist oder nicht.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

So fügen Sie URL-Masken hinzu, um Teile Ihrer Website zu indizieren oder nicht zu indizieren

  1. Klicken Sie im Produktmenü auf Settings > Crawling > URL Masks.

  2. (Optional) Geben Sie auf der Seite URL Masks im Feld Test URL Masks eine Test-URL-Maske von Ihrer Website ein und klicken Sie dann auf Test.

  3. Geben Sie im Feld URL Masks include ein (um eine Website hinzuzufügen, die durchsucht und indiziert werden soll) oder geben Sie exclude ein (um zu verhindern, dass eine Website durchsucht und indiziert wird), gefolgt von der Adresse der URL-Maske.

    Geben Sie eine URL-Maskenadresse pro Zeile ein. Beispiel:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Über Datumsmasken

Sie können Datumsmasken verwenden, um Dateien basierend auf dem Alter der Datei aus Ihren Suchergebnissen ein- oder auszuschließen.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Im Folgenden finden Sie zwei Arten von Datumsmasken, die Sie verwenden können:

  • Datumsmasken einschließen ("include-days"und "include-date")

    Schließen Sie Datumsmasken für Indexdateien ein, die am oder vor dem angegebenen Datum datiert sind.

  • Ausschließen von Datumsmasken ("exclude-days"und "exclude-date")

    Schließen Sie Datumsmasken für Indexdateien aus, die am oder vor dem angegebenen Datum datiert sind.

Standardmäßig wird das Dateidatum anhand von Meta-Tag-Informationen bestimmt. Wenn kein Meta-Tag gefunden wird, wird das Datum einer Datei aus dem HTTP-Header bestimmt, der vom Server empfangen wird, wenn der Suchroboter eine Datei herunterlädt.

Jede von Ihnen angegebene Datumsmaske muss sich in einer separaten Zeile befinden.

Die Maske kann Folgendes angeben:

  • Ein vollständiger Pfad wie in https://www.mydomain.com/products.html
  • Ein partieller Pfad wie in https://www.mydomain.com/products
  • Eine URL, die Platzhalter https://www.mydomain.com/*.html verwendet
  • Ein regulärer Ausdruck. Um eine Maske zu einem regulären Ausdruck zu machen, fügen Sie das Keyword regexp vor der URL ein.

Datumsmasken können sowohl ein- als auch ausgeblendet werden und auf eine der beiden folgenden Arten ein Datum angeben. Die Masken werden nur angewendet, wenn die übereinstimmenden Dateien am oder vor dem angegebenen Datum erstellt wurden:

  1. Anzahl Tage. Nehmen wir beispielsweise an, die Datumsmaske lautet wie folgt:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    Die Anzahl der angegebenen Tage wird zurückgezählt. Wenn die Datei am oder vor dem Datum datiert ist, an dem sie angekommen ist, wird die Maske angewendet.

  2. Ein aktuelles Datum im Format JJJJ-MM-TT. Nehmen wir beispielsweise an, die Datumsmaske lautet wie folgt:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Wenn das übereinstimmende Dokument am oder vor dem angegebenen Datum datiert ist, wird die Datumsmaske angewendet.

Im Folgenden finden Sie ein einfaches Beispiel für die Ausschlussdatumsmaske:

exclude-days 90 https://www.mydomain.com/docs/archive

Da es sich um eine Ausschlussdatumsmaske handelt, wird jede Datei, die dem Muster entspricht, nicht indiziert und ist mindestens 90 Tage alt. Wenn Sie ein Dokument ausschließen, wird kein Text indiziert und von dieser Datei werden keine Links gefolgt. Die Datei wird effektiv ignoriert. In diesem Beispiel stimmen möglicherweise beide Dateien und Ordner mit dem angegebenen URL-Muster überein. Beachten Sie, dass sowohl https://www.mydomain.com/docs/archive.html als auch https://www.mydomain.com/docs/archive/index.html mit dem Muster übereinstimmen und nicht indiziert werden, wenn sie 90 Tage alt oder älter sind. Um nur Dateien im Ordner /docs/archive/ zuzuordnen, muss die Datumsmaske einen Schrägstrich wie folgt enthalten:

exclude-days 90 https://www.mydomain.com/docs/archive/

Datumsmasken können auch mit Platzhaltern verwendet werden. Die folgende Ausschlussmaske weist den Suchroboter an, Dateien mit der Erweiterung ".pdf", die am oder vor dem 15. Mai 2011 datiert sind, zu übersehen. Der Suchroboter fügt Ihrem Index keine übereinstimmenden Dateien hinzu.

exclude-date 2011-02-15 *.pdf

Die Datumsmaske einschließen sieht ähnlich aus. Nur übereinstimmende Dateien werden zum Index hinzugefügt. Im folgenden Beispiel für die einbezogene Datumsmaske wird der Suchroboter angewiesen, den Text aus allen Dateien zu indizieren, die im Bereich /docs/archive/manual/ der Website null Tage alt oder älter sind.

include-days 0 https://www.mydomain.com/docs/archive/manual/

Masken einschließen und ausschließen können zusammenarbeiten. Sie können beispielsweise einen großen Teil Ihrer Website von der Indizierung ausschließen, indem Sie eine Ausschlussdatumsmaske erstellen, jedoch eine oder mehrere der ausgeschlossenen Seiten mit einer Einschließen-URL-Maske einschließen. Wenn Ihre Einstiegspunkt-URL die folgende ist:

https://www.mydomain.com/archive/

Der Suchroboter durchsucht und indiziert alle Seiten unter /archive/summer/, /archive/spring/ und /archive/fall/ (vorausgesetzt, es gibt Links zu mindestens einer Seite in jedem Ordner aus dem Ordner archive ). Dieses Verhalten tritt auf, weil die Link-Pfade es dem Suchroboter ermöglichen, die Dateien in den Ordnern /summer/, /spring/ und /fall/ zu "finden", und die Ordner-URLs mit der Include-Maske übereinstimmen, die automatisch von der Einstiegspunkt-URL generiert wird.

Siehe Über URL-Endpunkte.

Siehe Konfigurieren Ihrer Kontoeinstellungen.

Sie können alle Seiten, die älter als 90 Tage sind, im Ordner /fall/ mit einer Ausschlussdatumsmaske ausschließen, wie im Folgenden gezeigt:

exclude-days 90 https://www.mydomain.com/archive/fall/

Sie können nur /archive/fall/index.html (unabhängig davon, wie alt sie ist - alle Dateien von 0 Tagen oder älter werden abgeglichen) als Teil des Index mit der folgenden Datumsmaske einfügen:

include-days 0 https://www.mydomain.com/archive/fall/index.html

Damit die beiden oben genannten Maskenbeispiele wie gewünscht funktionieren, müssen Sie die Einschlussmaske wie folgt zuerst auflisten:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Da der Suchroboter den Anweisungen in der angegebenen Reihenfolge folgt, schließt der Suchroboter zunächst /archive/fall/index.html ein und schließt dann die restlichen Dateien im Ordner /fall aus.

Wenn die Anweisungen in umgekehrter Weise wie in der folgenden angegeben sind:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Dann ist /archive/fall/index.html nicht enthalten, obwohl die Maske angibt, dass es sein sollte. Eine zuerst angezeigte Datumsmaske hat immer Vorrang vor einer Datumsmaske, die später in den Maskeneinstellungen angezeigt wird. Wenn der Suchroboter außerdem auf eine Seite trifft, die sowohl mit einer Include-Datumsmaske als auch mit einer Ausschlussdatumsmaske übereinstimmt, hat die zuerst aufgeführte Maske immer Vorrang.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Über die Verwendung von Keywords mit Datumsmasken

Sie können jede Einschlussmaske mit einem oder mehreren durch Leerzeichen getrennten Keywords qualifizieren, die sich auf die Indexierung der übereinstimmenden Seiten auswirken.

Ein Komma ist nicht als Trennzeichen zwischen der Maske und dem Keyword gültig. Sie können nur Leerzeichen verwenden.

Suchbegriff

Beschreibung

noindex

Wenn Sie den Text nicht auf den Seiten indizieren möchten, die am oder vor dem Datum datiert sind, das durch die Einschlussmaske angegeben wird, fügen Sie noindex nach der Datumsmaske einschließen wie in der folgenden Abbildung dargestellt:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Achten Sie darauf, den Suchbegriff von der Maske durch ein Leerzeichen zu trennen.

Das obige Beispiel gibt an, dass der Suchroboter allen Links aus Dateien mit der Erweiterung ".swf" folgt, die mindestens 10 Tage alt sind. Sie deaktiviert jedoch die Indizierung des gesamten Textes, der in diesen Dateien enthalten ist.

Sie sollten sicherstellen, dass der Text für ältere Dateien nicht indiziert ist, aber dennoch alle Links aus diesen Dateien befolgen. Verwenden Sie in solchen Fällen eine Datumsmaske mit dem Keyword "noindex", anstatt eine Datumsmaske zum Ausschließen zu verwenden.

nofollow

Wenn Sie den Text auf den Seiten indizieren möchten, die am oder vor dem Datum datiert sind, das von der Include-Maske angegeben wird, Sie jedoch nicht den Links der übereinstimmenden Seite folgen möchten, fügen Sie nofollow nach der Datumsmaske einschließen wie in der folgenden Abbildung dargestellt:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Achten Sie darauf, den Suchbegriff von der Maske durch ein Leerzeichen zu trennen.

Die nofollow Keyword entspricht einem Roboter-Meta-Tag mit content="nofollow" zwischen den <head>...</head> Tag der übereinstimmenden Seiten.

server-date

Wird sowohl für Einschluss- als auch für Ausschlussmasken verwendet.

Der Suchroboter lädt im Allgemeinen jede Datei herunter und analysiert sie, bevor er die Datumsmasken überprüft. Dieses Verhalten tritt auf, da einige Dateitypen ein Datum in der Datei selbst angeben können. Beispielsweise kann ein HTML-Dokument Meta-Tags enthalten, die das Datum der Datei festlegen.

Wenn Sie viele Dateien anhand ihres Datums ausschließen und Ihre Server nicht unnötig belasten möchten, können Sie server-date nach der URL in der Datumsmaske.

Dieser Suchbegriff weist den Suchroboter an, anstelle der Analyse jeder Datei das Datum der Datei zu verwenden, die von Ihrem Server zurückgegeben wird. Die folgende Ausschlussdatumsmaske ignoriert beispielsweise Seiten, die mit der URL übereinstimmen, wenn die Dokumente 90 Tage oder älter sind. Dies hängt vom Datum ab, das vom Server in den HTTP-Headern zurückgegeben wird:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Wenn das vom Server zurückgegebene Datum 90 Tage oder länger vergangen ist, server-date gibt an, dass die ausgeschlossenen Dokumente nicht von Ihrem Server heruntergeladen werden. Dies bedeutet eine schnellere Indizierungszeit für Ihre Dokumente und eine geringere Belastung Ihrer Server. Wenn server-date nicht angegeben ist, ignoriert der Suchroboter das Datum, das vom Server in den HTTP-Headern zurückgegeben wird. Stattdessen wird jede Datei heruntergeladen und überprüft, um festzustellen, ob das Datum angegeben ist. Wenn in der Datei kein Datum angegeben ist, verwendet der Suchroboter das vom Server zurückgegebene Datum.

Sie sollten server-date , wenn Ihre Dateien Befehle enthalten, die das Serverdatum überschreiben.

regexp

Verwendung für Masken zum Ein- und Ausschließen.

Jede Datumsmaske, der regexp wird als regulärer Ausdruck behandelt.

Wenn der Suchroboter auf Dateien trifft, die mit einer Datumsmaske für reguläre Ausdrücke übereinstimmen, werden diese Dateien nicht indiziert.

Wenn der Suchroboter auf Dateien trifft, die mit einer Datumsmaske für reguläre Ausdrücke übereinstimmen, werden diese Dokumente indiziert.

Angenommen, Sie haben die folgende Datumsmaske:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

Die Maske weist den Suchroboter an, übereinstimmende Dateien auszuschließen, die mindestens 180 Tage alt sind. Das heißt, Dateien, die das Wort "archivieren"in ihrer URL enthalten.

Siehe Reguläre Ausdrücke .

Hinzufügen von Datumsmasken zum Index oder nicht zum Indexieren von Teilen Ihrer Website

Sie können Datumsmasken verwenden, um Dateien basierend auf dem Alter der Dateien in Kundensuchergebnissen ein- oder auszuschließen.

Verwenden Sie die Felder Test Date und Test URL , um zu testen, ob eine Datei nach dem Index enthalten ist oder nicht.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

So fügen Sie Datumsmasken hinzu, um Teile Ihrer Website zu indizieren oder nicht zu indizieren

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Date Masks.

  2. (Optional) Geben Sie auf der Seite Date Masks im Feld Test Date ein Datum ein, das als JJJJ-MM-TT formatiert ist (z. B. 2011-07-25). Geben Sie im Feld Test URL eine URL-Maske von Ihrer Website ein und klicken Sie auf Test.

  3. Geben Sie im Feld Date Masks eine Adresse für die Datumsmaske pro Zeile ein.

  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Über Passwörter

Um auf Teile Ihrer Website zuzugreifen, die mit HTTP Basic Authentication geschützt sind, können Sie ein oder mehrere Passwörter hinzufügen.

Bevor die Auswirkungen der Kennworteinstellungen für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Geben Sie auf der Seite Passwords jedes Kennwort in einer einzigen Zeile ein. Das Kennwort besteht aus einer URL oder einem Bereich, einem Benutzernamen und einem Kennwort, wie im folgenden Beispiel gezeigt:

https://www.mydomain.com/ myname mypassword

Statt einen URL-Pfad zu verwenden, wie oben gezeigt, können Sie auch einen Bereich angeben.

Um den richtigen Bereich zu bestimmen, öffnen Sie eine kennwortgeschützte Webseite mit einem Browser und sehen Sie sich das Dialogfeld "Kennwort für Netzwerk eingeben" an.

Der Bereichsname lautet in diesem Fall "Mein Site-Bereich".

Wenn Sie den Bereichsnamen oben verwenden, könnte Ihr Kennwort wie folgt aussehen:

My Site Realm myusername mypassword

Wenn Ihre Website über mehrere Bereiche verfügt, können Sie mehrere Passwörter erstellen, indem Sie einen Benutzernamen und ein Kennwort für jeden Bereich in einer separaten Zeile eingeben, wie im folgenden Beispiel gezeigt:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Sie können Kennwörter, die URLs oder Realms enthalten, miteinander kombinieren, sodass Ihre Kennwortliste wie folgt aussehen kann:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

In der obigen Liste wird das erste Kennwort verwendet, das einen Bereich oder eine URL enthält, der bzw. die der Authentifizierungsanforderung des Servers entspricht. Selbst wenn sich die Datei unter https://www.mysite.com/path1/path2/index.html in Realm3 befindet, werden beispielsweise name2 und password2 verwendet, da das mit der URL definierte Kennwort über dem mit dem Bereich definierten angezeigt wird.

Hinzufügen von Passwörtern für den Zugriff auf Bereiche Ihrer Website, die authentifiziert werden müssen

Sie können Passwörter verwenden, um kennwortgeschützte Bereiche Ihrer Website für Crawling- und Indizierungszwecke aufzurufen.

Bevor die Auswirkungen Ihres Passworts für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

So fügen Sie Kennwörter für den Zugriff auf Bereiche Ihrer Website hinzu, die authentifiziert werden müssen

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Passwords.

  2. Geben Sie auf der Seite Passwords im Feld Passwords einen Bereich oder eine URL sowie den zugehörigen Benutzernamen und das Kennwort (durch ein Leerzeichen getrennt) ein.

    Beispiel eines Realm-Kennworts und eines URL-Kennworts in separaten Zeilen:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Fügen Sie nur ein Kennwort pro Zeile hinzu.

  3. Klicken Save Changes.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Über Content-Typen

Sie können Content Types verwenden, um auszuwählen, welche Dateitypen Sie durchsuchen und für dieses Konto indizieren möchten.

Zu den Inhaltstypen, die Sie durchsuchen und indizieren können, gehören PDF-Dokumente, Textdokumente, Adobe Flash-Filme, Dateien aus Microsoft Office-Anwendungen wie Word, Excel und Powerpoint sowie Text in MP3-Dateien. Der in den ausgewählten Inhaltstypen gefundene Text wird zusammen mit dem gesamten anderen Text auf Ihrer Website durchsucht.

Bevor die Auswirkungen der Einstellungen für Content-Typen für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Über die Indizierung von MP3-Musikdateien

Wenn Sie die Option Text in MP3 Music Files auf der Seite Content Types auswählen, wird eine MP3-Datei auf zwei Arten durchsucht und indiziert. Die erste und gängigste Methode ist ein Anker-href-Tag in einer HTML-Datei, wie im folgenden Beispiel:

<a href="MP3-file-URL"></a>

Die zweite Möglichkeit besteht darin, die URL der MP3-Datei als URL-Einstiegspunkt einzugeben.

Siehe Über URL-Endpunkte.

Eine MP3-Datei wird durch den MIME-Typ "audio/mpeg"erkannt.

Beachten Sie, dass MP3-Musikdateien sehr groß sein können, obwohl sie normalerweise nur eine kleine Textmenge enthalten. MP3-Dateien können beispielsweise optional Dinge wie den Albumnamen, den Namen des Künstlers, den Titel des Liedes, das Musikgenre, das Jahr der Veröffentlichung und einen Kommentar speichern. Diese Informationen werden am Ende der Datei im so genannten TAG gespeichert. MP3-Dateien, die TAG-Informationen enthalten, werden wie folgt indiziert:

  • Der Titel des Liedes wird wie der Titel einer HTML-Seite behandelt.
  • Der Kommentar wird wie eine Beschreibung behandelt, die für eine HTML-Seite definiert ist.
  • Das Genre wird wie ein Keyword behandelt, das für eine HTML-Seite definiert ist.
  • Der Name des Künstlers, der Albumname und das Jahr der Veröffentlichung werden wie der Text einer HTML-Seite behandelt.

Beachten Sie, dass jede MP3-Datei, die auf Ihrer Website durchsucht und indiziert wird, als eine Seite zählt.

Wenn Ihre Website viele große MP3-Dateien enthält, können Sie die Indizierungsbyte-Grenze für Ihr Konto überschreiten. In diesem Fall können Sie die Auswahl von Text in MP3 Music Files auf der Seite Content Types aufheben, um die Indizierung aller MP3-Dateien auf Ihrer Website zu verhindern.

Wenn Sie nur die Indizierung bestimmter MP3-Dateien auf Ihrer Website verhindern möchten, können Sie einen der folgenden Schritte ausführen:

  • Umschließen Sie die Anker-Tags, die mit den MP3-Dateien verknüpft sind, mit den Tags <nofollow> und </nofollow> . Der Suchroboter folgt nicht den Verknüpfungen zwischen diesen Tags.

  • Fügen Sie die URLs der MP3-Dateien als Ausschlussmasken hinzu.

    Siehe Über URL-Masken.

Auswahl der zu durchsuchenden und zu indizierenden Inhaltstypen

Sie können Content Types verwenden, um auszuwählen, welche Dateitypen Sie durchsuchen und für dieses Konto indizieren möchten.

Zu den Inhaltstypen, die Sie durchsuchen und indizieren können, gehören PDF-Dokumente, Textdokumente, Adobe Flash-Filme, Dateien aus Microsoft Office-Anwendungen wie Word, Excel und Powerpoint sowie Text in MP3-Dateien. Der in den ausgewählten Inhaltstypen gefundene Text wird zusammen mit dem gesamten anderen Text auf Ihrer Website durchsucht.

Bevor die Auswirkungen der Einstellungen für Content-Typen für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

Um chinesische, japanische oder koreanische MP3-Dateien zu durchsuchen und zu indizieren, führen Sie die folgenden Schritte aus. Geben Sie dann in Settings > Metadata > Injections den Zeichensatz an, der zum Kodieren der MP3-Dateien verwendet wird.

Siehe Über Injektionen.

So wählen Sie zu durchsuchende und zu indizierende Inhaltstypen aus

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Content Types.

  2. Überprüfen Sie auf der Seite Content Types die Dateitypen, die Sie durchsuchen und auf Ihrer Website indizieren möchten.

  3. Klicken Save Changes.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Über Verbindungen

Sie können Verbindungen verwenden, um bis zu zehn HTTP-Verbindungen hinzuzufügen, die der Suchroboter zum Indizieren Ihrer Website verwendet.

Eine Erhöhung der Anzahl der Verbindungen kann die Zeit, die zum Abschließen eines Crawls und Index benötigt wird, erheblich verringern. Beachten Sie jedoch, dass jede zusätzliche Verbindung die Last auf Ihrem Server erhöht.

Hinzufügen von Verbindungen zur Beschleunigung der Indizierung

Sie können die Zeit für die Indizierung Ihrer Website verkürzen, indem Sie Verbindungen verwenden, um die Anzahl der gleichzeitigen HTTP-Verbindungen zu erhöhen, die der Crawler verwendet. Sie können bis zu zehn Verbindungen hinzufügen.

Beachten Sie, dass jede zusätzliche Verbindung die auf Ihrem Server platzierte Last erhöht.

So fügen Sie Verbindungen hinzu, um die Indizierungsgeschwindigkeit zu erhöhen

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Connections.

  2. Geben Sie auf der Seite Parallel Indexing Connections im Feld Number of Connections die Anzahl der Verbindungen (1-10) ein, die hinzugefügt werden sollen.

  3. Klicken Save Changes.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Über die Formularübermittlung

Sie können die Formularübermittlung verwenden, um Formulare auf Ihrer Website zu erkennen und zu verarbeiten.

Während des Crawling und der Indizierung Ihrer Website wird jedes aufgefundene Formular mit den von Ihnen hinzugefügten Formulardefinitionen verglichen. Wenn ein Formular mit einer Formulardefinition übereinstimmt, wird das Formular zur Indizierung gesendet. Wenn ein Formular mit mehreren Definitionen übereinstimmt, wird das Formular für jede übereinstimmende Definition einmal gesendet.

Hinzufügen von Formulardefinitionen für die Indizierung von Formularen auf Ihrer Website

Sie können Form Submission verwenden, um Formulare zu verarbeiten, die auf Ihrer Website zu Indizierungszwecken erkannt werden.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer Änderungen für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

So fügen Sie Formulardefinitionen für die Indizierung von Formularen auf Ihrer Website hinzu

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Form Submission.

  2. Klicken Sie auf der Seite Form Submission auf Add New Form.

  3. Legen Sie auf der Seite Add Form Definition die Optionen Form Recognition und Form Submission fest.

    Die fünf Optionen im Abschnitt Form Recognition auf der Seite Form Definition werden verwendet, um Formulare auf Ihren Webseiten zu identifizieren, die verarbeitet werden können.

    Die drei Optionen im Abschnitt Form Submission werden verwendet, um die Parameter und Werte anzugeben, die mit einem Formular an Ihren Webserver gesendet werden.

    Geben Sie einen Erkennungs- oder Sendeparameter pro Zeile ein. Jeder Parameter muss einen Namen und einen Wert enthalten.

    Option

    Beschreibung

    Formularanerkennung

    Seiten-URL-Maske

    Identifizieren Sie die Webseiten, die das Formular enthalten. Um ein Formular zu identifizieren, das auf einer einzelnen Seite erscheint, geben Sie die URL für diese Seite wie im folgenden Beispiel ein:

    https://www.mydomain.com/login.html

    Um Formulare zu identifizieren, die auf mehreren Seiten angezeigt werden, geben Sie eine URL-Maske an, die die Seiten mit Platzhaltern beschreibt. Um Formulare zu identifizieren, die auf einer ASP-Seite unter https://www.mydomain.com/register/ gefunden wurden, geben Sie beispielsweise Folgendes an:

    https://www.mydomain.com/register/*.asp&nbsp;

    Sie können auch einen regulären Ausdruck verwenden, um mehrere Seiten zu identifizieren. Geben Sie einfach die regexp vor der URL-Maske wie im folgenden Beispiel gezeigt:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    Action URL Mask

    Identifiziert das Aktionsattribut des <form> -Tag.

    Wie bei der Seiten-URL-Maske kann die Maske der Aktions-URL in Form einer einzelnen URL, einer URL mit Platzhaltern oder eines regulären Ausdrucks dargestellt werden.

    Die URL-Maske kann wie folgt aussehen:

    • Ein vollständiger Pfad wie im folgenden Beispiel: https://www.mydomain.com/products.html
    • Ein partieller Pfad wie im Folgenden gezeigt: https://www.mydomain.com/products
    • Eine URL, die Platzhalter wie in der folgenden verwendet: https://www.mydomain.com/*.html
    • Ein regulärer Ausdruck wie im Folgenden: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Wenn Sie den Text nicht auf Seiten indizieren möchten, die durch eine URL-Maske oder eine Aktion-URL-Maske identifiziert werden, oder wenn Sie nicht möchten, dass Links auf diesen Seiten folgen, können Sie die noindex und nofollow Suchbegriffe. Sie können diese Suchbegriffe zu Ihren Masken hinzufügen, indem Sie URL-Masken oder Einstiegspunkte verwenden.

    Siehe Über URL-Endpunkte .

    Siehe Über URL-Masken .

    Formularnamenmaske

    Identifiziert Formulare, wenn die <form> -Tags in Ihren Webseiten enthalten ein Namensattribut.

    Sie können einen einfachen Namen ( login_form ), einen Namen mit einem Platzhalter ( form* ) oder einen regulären Ausdruck ( regexp ^.*authorize.*$ ).

    Normalerweise können Sie dieses Feld leer lassen, da Formulare normalerweise kein Namensattribut aufweisen.

    Formular-ID-Maske

    Identifiziert Formulare, wenn die <form> -Tags in Ihren Webseiten enthalten ein id -Attribut.

    Sie können einen einfachen Namen ( login_form ), einen Namen mit einem Platzhalter ( form* ) oder einen regulären Ausdruck ( regexp ^.*authorize.*$ ).

    Normalerweise können Sie dieses Feld leer lassen, da Formulare normalerweise kein Namensattribut aufweisen.

    Parameter

    Identifizieren Sie Formulare, die einen benannten Parameter oder einen benannten Parameter mit einem bestimmten Wert enthalten oder nicht enthalten.

    Um beispielsweise ein Formular zu identifizieren, das einen E-Mail-Parameter enthält, der auf rick_brough@mydomain.com, einen Kennwortparameter, aber nicht einen Vorname-Parameter, vordefiniert ist, geben Sie die folgenden Parametereinstellungen an, eine pro Zeile:

    email=rick_brough@mydomain.com password not first-name

    Formularübermittlung

    URL der Aktion überschreiben

    Geben Sie an, wann sich die Zielgruppe der Formularübermittlung von der im Aktions-Attribut des Formulars angegebenen unterscheidet.

    Beispielsweise können Sie diese Option verwenden, wenn das Formular über eine JavaScript-Funktion übermittelt wird, die einen URL-Wert erstellt, der sich von dem im Formular enthaltenen unterscheidet.

    Überschreibungsmethode

    Geben Sie an, wann sich die Zielgruppe der Formularübermittlung von der im Aktions-Attribut des Formulars verwendeten unterscheidet und wann das Senden-JavaScript die Methode geändert hat.

    Die Standardwerte für alle Formularparameter ( <input> -Tags, einschließlich ausgeblendeter Felder), die Standardeinstellung <option> von einer <select> -Tag und der Standardtext zwischen <textarea>...</textarea> -Tags) von der Webseite aus gelesen werden. Jeder Parameter, der im Abschnitt Formularübermittlung im Feld Parameter aufgeführt ist, wird jedoch durch die Formularstandardwerte ersetzt.

    Parameter

    Sie können Formularübermittlungsparameter mit dem Präfix not Keyword.

    Wenn Sie einem Parameter das Präfix not wird nicht als Teil der Formularübermittlung gesendet. Dieses Verhalten ist nützlich für Kontrollkästchen, die deaktiviert werden sollen.

    Angenommen, Sie möchten die folgenden Parameter übermitteln:

    • Der E-Mail-Parameter mit dem Wert nobody@mydomain.com
    • Der Kennwortparameter mit dem Wert tryme
    • Der Parameter mycheckbox ist deaktiviert.
    • Alle anderen <form> Parameter als Standardwerte

    Ihr Formularübermittlungsparameter würde wie folgt aussehen:

    email=nobody@mydomain.com password=tryme not mycheckbox

    Das method -Attribut der <form> -Tag auf der Web-Seite wird verwendet, um zu entscheiden, ob die Daten mithilfe der GET- oder der POST-Methode an Ihren Server gesendet werden.

    Wenn die Variable <form> -Tag kein Methodenattribut enthält, wird das Formular mit der GET -Methode gesendet.

  4. Klicken Add.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Formulardefinition bearbeiten

Sie können eine vorhandene Formulardefinition bearbeiten, wenn sich ein Formular auf Ihrer Website geändert hat oder Sie nur die Definition ändern müssen.

Beachten Sie, dass auf der Seite Form Submission keine History-Funktion vorhanden ist, um alle Änderungen wiederherzustellen, die Sie an einer Formulardefinition vornehmen.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer Änderungen für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

So bearbeiten Sie eine Formulardefinition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Form Submission.

  2. Klicken Sie auf der Seite Form Submission rechts neben einer Formulardefinition, die Sie aktualisieren möchten, auf Edit .

  3. Legen Sie auf der Seite Edit Form Definition die Optionen Form Recognition und Form Submission fest.

    Siehe die Tabelle der Optionen unter Hinzufügen von Formulardefinitionen für die Indizierung von Formularen auf Ihrer Website.

  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Formulardefinition löschen

Sie können eine vorhandene Formulardefinition löschen, wenn das Formular nicht mehr auf Ihrer Website vorhanden ist oder wenn Sie ein bestimmtes Formular nicht mehr verarbeiten und indizieren möchten.

Beachten Sie, dass auf der Seite Form Submission keine History-Funktion vorhanden ist, um alle Änderungen wiederherzustellen, die Sie an einer Formulardefinition vornehmen.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer Änderungen für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Index einer gestaffelten Website.

So löschen Sie eine Formulardefinition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Form Submission.

  2. Klicken Sie auf der Seite Form Submission rechts neben einer Formulardefinition, die Sie entfernen möchten, auf Delete .

    Achten Sie darauf, die richtige Formulardefinition zum Löschen auszuwählen. Es gibt kein Dialogfeld zur Löschbestätigung, wenn Sie im nächsten Schritt auf Delete klicken.

  3. Klicken Sie auf der Seite Delete Form Definition auf Delete.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Über Index Connector

Verwenden Sie Index Connector , um zusätzliche Eingabequellen für die Indizierung von XML-Seiten oder beliebigen Feeds zu definieren.

Sie können eine Eingabequelle für Daten-Feeds verwenden, um auf Inhalte zuzugreifen, die in einem Formular gespeichert sind, das sich von dem unterscheidet, was normalerweise auf einer Website mithilfe einer der verfügbaren Crawl-Methoden erkannt wird. Jedes durchsuchte und indizierte Dokument entspricht einer Inhaltsseite auf Ihrer Website. Ein Daten-Feed stammt jedoch entweder aus einem XML-Dokument oder aus einer durch Kommas oder Tabulatoren getrennten Textdatei und enthält die zu indizierenden Inhaltsinformationen.

Eine XML-Datenquelle besteht aus XML-Stanzas oder Datensätzen, die Informationen enthalten, die einzelnen Dokumenten entsprechen. Diese einzelnen Dokumente werden dem Index hinzugefügt. Ein Textdaten-Feed enthält einzelne, durch neue Zeilen getrennte Datensätze, die einzelnen Dokumenten entsprechen. Diese einzelnen Dokumente werden auch dem Index hinzugefügt. In beiden Fällen beschreibt eine Index-Connector-Konfiguration die Interpretation des Feeds. Jede Konfiguration beschreibt, wo sich die Datei befindet und wie die Server darauf zugreifen. In der Konfiguration werden auch Informationen zum "Zuordnen"beschrieben. Das heißt, wie die Elemente der einzelnen Datensätze verwendet werden, um die Metadatenfelder im resultierenden Index zu füllen.

Nachdem Sie der Seite Staged Index Connector Definitions eine Index Connector-Definition hinzugefügt haben, können Sie jede Konfigurationseinstellung ändern, mit Ausnahme von für die Werte "Name"oder "Typ".

Die Seite Index Connector enthält folgende Informationen:

  • Der Name der definierten Index-Connectoren, die Sie konfiguriert und hinzugefügt haben.

  • Einer der folgenden Datenquellentypen für jeden Connector, den Sie hinzugefügt haben:

    • Text - Einfache "flache"Dateien, kommagetrennte, tabulatorgetrennte oder andere konsistent getrennte Formate.
    • Feed - XML-Feeds.
    • XML - Sammlungen von XML-Dokumenten.
  • Ob der Connector für das nächste Durchsuchen und Indizieren aktiviert ist oder nicht.

  • Die Adresse der Datenquelle.

Siehe auch Info zu Index Connector

Funktionsweise des Indizierungsprozesses für Text- und Feed-Konfigurationen in Index Connector

Schritt

Prozess

Beschreibung

1

Laden Sie die Datenquelle herunter.

Bei Text- und Feed-Konfigurationen handelt es sich um einen einfachen Dateidownload.

2

Schlüsseln Sie die heruntergeladene Datenquelle in einzelne Pseudo-Dokumente auf.

Für Text entspricht jede durch Zeilenumbruch getrennte Textzeile einem einzelnen Dokument und wird mithilfe des angegebenen Trennzeichens wie einem Komma oder einer Registerkarte analysiert.

Für Feed werden die Daten jedes Dokuments mithilfe eines Musters für reguläre Ausdrücke wie folgt extrahiert:

<${Itemtag}>(.*?)</${Itemtag}>

Erstellen Sie mithilfe von auf der Seite Index Connector eine zwischengespeicherte Kopie der Daten und erstellen Sie dann eine Liste von Links für den Crawler. Die Daten werden in einem lokalen Cache gespeichert und mit den konfigurierten Feldern gefüllt.

Die analysierten Daten werden in den lokalen Cache geschrieben.

Dieser Cache wird später gelesen, um die einfachen HTML-Dokumente zu erstellen, die der Crawler benötigt. Beispiel:

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

Das Element <title> wird nur generiert, wenn eine Zuordnung zum Metadatenfeld "Titel"vorhanden ist. Ebenso wird das Element <body> nur generiert, wenn eine Zuordnung zum Metadatenfeld "Textkörper"vorhanden ist.

Wichtig: Die Zuweisung von Werten zum vordefinierten URL-Meta-Tag wird nicht unterstützt.

Bei allen anderen Zuordnungen werden <meta> -Tags für jedes Feld generiert, das Daten im Originaldokument enthält.

Die Felder für jedes Dokument werden dem Cache hinzugefügt. Für jedes Dokument, das in den Cache geschrieben wird, wird wie in den folgenden Beispielen auch ein Link generiert:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

Für die Zuordnung der Konfiguration muss ein Feld als Primärer Schlüssel identifiziert werden. Diese Zuordnung bildet den Schlüssel, der verwendet wird, wenn Daten aus dem Cache abgerufen werden.

Der Crawler erkennt den Index der URL : Schemapräfix, das dann auf die lokal zwischengespeicherten Daten zugreifen kann.

3

Durchsuchen Sie den zwischengespeicherten Dokumentsatz.

Der Index : Links werden der ausstehenden Liste des Crawlers hinzugefügt und in der normalen Crawl-Sequenz verarbeitet.

4

Verarbeiten Sie jedes Dokument.

Der Schlüsselwert jedes Links entspricht einem Eintrag im Cache, sodass das Durchsuchen der einzelnen Links dazu führt, dass die Daten dieses Dokuments aus dem Cache abgerufen werden. Anschließend wird es zu einem HTML-Bild "zusammengestellt", das verarbeitet und dem Index hinzugefügt wird.

Funktionsweise des Indizierungsprozesses für XML-Konfigurationen in Index Connector

Der Indizierungsprozess für die XML-Konfiguration ähnelt dem Prozess für Text- und Feed-Konfigurationen mit den folgenden geringfügigen Änderungen und Ausnahmen.

Da die Dokumente für XML-Crawls bereits in einzelne Dateien unterteilt sind, gelten die Schritte 1 und 2 in der obigen Tabelle nicht direkt. Wenn Sie eine URL in den Feldern Host Address und File Path der Seite Index Connector Add angeben, wird sie heruntergeladen und als normales HTML-Dokument verarbeitet. Es wird erwartet, dass das Download-Dokument eine Sammlung von <a href="{url}"...-Links enthält, von denen jede auf ein verarbeitetes XML-Dokument verweist. Solche Links werden in das folgende Formular konvertiert:

<a href="index:<ic_config_name>?url="{url}">

Wenn das Adobe-Setup beispielsweise die folgenden Links zurückgibt:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

In der obigen Tabelle gilt Schritt 3 nicht und Schritt 4 wird zum Zeitpunkt des Crawling und der Indizierung abgeschlossen.

Alternativ können Sie Ihre XML-Dokumente mit anderen Dokumenten kombinieren, die durch den Crawl-Prozess auf natürliche Weise entdeckt wurden. In solchen Fällen können Sie Umschreibungsregeln ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) verwenden, um die URLs der XML-Dokumente zu ändern und sie an den Index Connector weiterzuleiten.

Siehe Über Crawl List Retrieve URL Rules.

Angenommen, Sie haben die folgende Neuschreibungsregel:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Diese Regel übersetzt alle URLs, die mit .xml enden, in einen Index-Connector-Link. Der Crawler erkennt und schreibt das URL-Schema index: neu. Der Download-Prozess wird über den Index Connector-Apache-Server auf der primären Instanz umgeleitet. Jedes heruntergeladene Dokument wird mit dem gleichen Muster für reguläre Ausdrücke geprüft, das für Feeds verwendet wird. In diesem Fall wird das erstellte HTML-Dokument jedoch nicht im Cache gespeichert. Stattdessen wird er direkt an den Crawler zur Indexverarbeitung übergeben.

Konfigurieren mehrerer Index Connectors

Sie können für jedes Konto mehrere Index Connector-Konfigurationen definieren. Die Konfigurationen werden automatisch zur Dropdown-Liste in Settings > Crawl > URL Entrypoints hinzugefügt, wie in der folgenden Abbildung dargestellt:

Wenn Sie eine Konfiguration aus der Dropdown-Liste auswählen, wird der Wert am Ende der Liste der URL-Einstiegspunkte hinzugefügt.

HINWEIS

Deaktivierte Index Connector-Konfigurationen werden zwar zur Dropdown-Liste hinzugefügt, Sie können sie jedoch nicht auswählen. Wenn Sie dieselbe Index Connector-Konfiguration ein zweites Mal auswählen, wird sie am Ende der Liste hinzugefügt und die vorherige Instanz wird gelöscht.

Um einen Index Connector-Einstiegspunkt für eine inkrementelle Suche anzugeben, können Sie Einträge im folgenden Format hinzufügen:

index:<indexconnector_configuration_name>

Der Crawler verarbeitet jeden hinzugefügten Eintrag, wenn er auf der Seite Index Connectors gefunden und aktiviert ist.

Hinweis: Da die URL eines jeden Dokuments mit dem Index Connector-Konfigurationsnamen und dem Primärschlüssel des Dokuments erstellt wird, müssen Sie bei der Durchführung inkrementeller Aktualisierungen denselben Index Connector-Konfigurationsnamen verwenden! Dadurch kann Adobe Search&Promote zuvor indizierte Dokumente korrekt aktualisieren.

Siehe auch Über URL-Endpunkte.

Verwendung von Setup-Maps beim Hinzufügen eines Index-Connectors

Wenn Sie einen Index Connector hinzufügen, können Sie optional die Funktion Setup Maps verwenden, um ein Beispiel Ihrer Datenquelle herunterzuladen. Die Daten werden auf Indizierungseignung geprüft.

Wenn Sie den Index Connector-Typ auswählen...

Die Funktion "Setup Maps"..

Text

Bestimmt den Trennzeichenwert, indem zuerst Registerkarten und dann vertikale Balken ( ) versucht werden | ) und schließlich Kommas ( , ). Wenn Sie bereits einen Trennzeichenwert angegeben haben, bevor Sie auf Einrichtungskarten geklickt haben, wird dieser Wert stattdessen verwendet.

Das am besten geeignete Schema führt dazu, dass die Zuordnungsfelder mit Schätzungen zu den entsprechenden Tag- und Feldwerten ausgefüllt werden. Zusätzlich wird eine Auswahl der analysierten Daten angezeigt. Wählen Sie Kopfzeilen in der ersten Zeile aus, wenn Sie wissen, dass die Datei eine Kopfzeile enthält. Die Setup-Funktion verwendet diese Informationen, um die resultierenden Zuordnungseinträge besser zu identifizieren.

Feed

Lädt die Datenquelle herunter und führt einfache XML-Parsing durch.

Die resultierenden XPath-IDs werden in den Tag-Zeilen der Map-Tabelle und in den Feldern in ähnlichen Werten angezeigt. Diese Zeilen identifizieren nur die verfügbaren Daten und generieren nicht die komplizierteren XPath-Definitionen. Es ist jedoch weiterhin hilfreich, da es die XML-Daten beschreibt und ItemTag-Werte identifiziert.

Hinweis: Die Funktion "Setup-Maps"lädt die gesamte XML-Quelle herunter, um die Analyse durchzuführen. Wenn die Datei groß ist, kann bei diesem Vorgang eine Zeitüberschreitung auftreten.

Nach erfolgreichem Abschluss identifiziert diese Funktion alle möglichen XPath-Elemente, von denen viele nicht verwendet werden sollten. Achten Sie darauf, die resultierenden Kartendefinitionen zu untersuchen und diejenigen zu entfernen, die Sie nicht benötigen oder möchten.

XML

Lädt die URL eines repräsentativen individuellen Dokuments herunter, nicht die Liste der primären Links. Dieses einzelne Dokument wird mit demselben Mechanismus analysiert, der für Feeds verwendet wird, und die Ergebnisse werden angezeigt.

Bevor Sie auf klicken, um die Konfiguration zu speichern, stellen Sie sicher, dass Sie die URL wieder in das Dokument mit der primären Link-Liste ändern.

Wichtig: Die Funktion "Setup Maps"funktioniert möglicherweise nicht für große XML-Datensätze, da der Dateiparser versucht, die gesamte Datei in den Speicher zu lesen. Daher kann es zu einer Speicherüberschreitung kommen. Wenn dasselbe Dokument jedoch zum Zeitpunkt der Indizierung verarbeitet wird, wird es nicht in den Speicher gelesen. Stattdessen werden große Dokumente "unterwegs"verarbeitet und zuerst nicht vollständig in den Speicher gelesen.

Die Verwendung der Vorschau beim Hinzufügen eines Index-Connectors

Zum Zeitpunkt des Hinzufügens eines Index-Connectors können Sie optional die Funktion Preview verwenden, um die Daten zu validieren, als ob Sie sie gespeichert hätten. Er führt einen Test für die Konfiguration aus, ohne die Konfiguration im Konto zu speichern. Der Test greift auf die konfigurierte Datenquelle zu. Der Download-Cache wird jedoch an einen temporären Speicherort geschrieben. Es steht nicht im Konflikt mit dem Hauptcache-Ordner, den der Indizierungs-Crawler verwendet.

Die Vorschau verarbeitet nur einen Standardwert von fünf Dokumenten, wie von Acct:IndexConnector-Preview-Max-Documents gesteuert. Die in der Vorschau angezeigten Dokumente werden im Quellformular angezeigt, da sie dem Indizierungs-Crawler präsentiert werden. Die Anzeige ähnelt der Funktion "Quelle anzeigen"in einem Webbrowser. Sie können mithilfe von Standardnavigationslinks in den Dokumenten im Vorschauset navigieren.

Die Vorschau unterstützt keine XML-Konfigurationen, da diese Dokumente direkt verarbeitet und nicht in den Cache heruntergeladen werden.

Hinzufügen einer Index Connector-Definition

Jede Index Connector-Konfiguration definiert eine Datenquelle und Zuordnungen, um die für diese Quelle definierten Datenelemente mit den Metadatenfeldern im Index zu verknüpfen.

Bevor die Auswirkungen der neuen und aktivierten Definition für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen.

So fügen Sie eine Index Connector-Definition hinzu

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Seite Stage Index Connector Definitions auf Add New Index Connector.

  3. Legen Sie auf der Seite Index Connector Add die gewünschten Connector-Optionen fest. Die verfügbaren Optionen hängen von der ausgewählten Type ab.

    Option

    Beschreibung

    Name

    Der eindeutige Name der Index Connector-Konfiguration. Sie können alphanumerische Zeichen verwenden. Die Zeichen "_"und "-"sind ebenfalls zulässig.

    Typ

    Die Quelle Ihrer Daten. Der ausgewählte Datenquellentyp wirkt sich auf die resultierenden Optionen aus, die auf der Seite Index Connector Add verfügbar sind. Sie können aus folgenden Optionen wählen:

    • Text

      Einfache flache Textdateien, kommagetrennte, tabulatorgetrennte oder andere konsistent getrennte Formate. Jede durch Zeilenumbrüche getrennte Textzeile entspricht einem einzelnen Dokument und wird mithilfe des angegebenen Trennzeichens analysiert.

      Sie können jeden Wert bzw. jede Spalte einem Metadatenfeld zuordnen, das durch die Spaltennummer referenziert wird, beginnend bei 1 (eins).

    • Feed

      Lädt ein primäres XML-Dokument herunter, das mehrere "Zeilen"mit Informationen enthält.

    • XML

      Laden Sie ein primäres XML-Dokument herunter, das Links enthält ( <a> ) für einzelne XML-Dokumente.

    Datenquellentyp: Text

    Aktiviert

    Wandelt die Konfiguration "ein"in Crawl und Index um. Alternativ können Sie die Konfiguration "deaktivieren", um Crawling und Indizierung zu verhindern.

    Hinweis: Deaktivierte Index Connector-Konfigurationen werden ignoriert, wenn sie in einer Einstiegspunktliste gefunden werden.

    Hostadresse

    Gibt die Adresse des Serverhosts an, auf dem sich Ihre Daten befinden.

    Bei Bedarf können Sie einen vollständigen URI-Pfad (Uniform Resource Identifier) zum Datenquellendokument wie in den folgenden Beispielen angeben:

    https://www.somewhere.com/some_path/some_file.xml

    oder

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    Der URI ist in die entsprechenden Einträge für die Felder Host-Adresse, Dateipfad, Protokoll und optional Benutzername und Kennwort unterteilt.

    Gibt die IP-Adresse oder die URL-Adresse des Hostsystems an, in dem die Datenquellendatei gefunden wird.

    Dateipfad

    Gibt den Pfad zur einfachen Textdatei mit einfach strukturiertem, kommagetrennten, tabulatorgetrennten oder anderen konsistent getrennten Formatdateien an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Inkrementeller Dateipfad

    Gibt den Pfad zur einfachen Textdatei mit einfach strukturiertem, kommagetrennten, tabulatorgetrennten oder anderen konsistent getrennten Formatdateien an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während der Vorgänge "Inkrementeller Index"heruntergeladen und verarbeitet. Wenn keine Datei angegeben ist, wird stattdessen die unter Dateipfad aufgelistete Datei verwendet.

    Vertikaler Dateipfad

    Gibt den Pfad zur einfachen, durch Kommas getrennten, tabulatorgetrennten oder anderen, konsistent getrennten Formatdatei an, die bei einer vertikalen Aktualisierung verwendet werden soll.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während des Vorgangs "Vertikale Aktualisierung"heruntergeladen und verarbeitet.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    Löschen des Dateipfads

    Gibt den Pfad zur einfachen Textdatei mit einem einzelnen Dokumentkennungswert pro Zeile an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während der Vorgänge "Inkrementeller Index"heruntergeladen und verarbeitet. Die in dieser Datei gefundenen Werte werden verwendet, um "Löschanfragen"zum Entfernen zuvor indizierter Dokumente zu erstellen. Die Werte in dieser Datei müssen den Werten in den Dateien Vollständiger oder Inkrementeller Dateipfad in der Spalte entsprechen, die als Primärer Schlüssel bezeichnet wird.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    Protokoll

    Gibt das Protokoll an, das für den Zugriff auf die Datei verwendet wird. Sie können aus folgenden Optionen wählen:

    • HTTP

      Bei Bedarf können Sie für den Zugriff auf den HTTP-Server die entsprechenden Authentifizierungsberechtigungen eingeben.

    • HTTPS

      Bei Bedarf können Sie für den Zugriff auf den HTTPS-Server die entsprechenden Authentifizierungsberechtigungen eingeben.

    • FTP

      Sie müssen die entsprechenden Authentifizierungsberechtigungen eingeben, um auf den FTP-Server zugreifen zu können.

    • SFTP

      Sie müssen die entsprechenden Authentifizierungsberechtigungen eingeben, um auf den SFTP-Server zugreifen zu können.

    • Datei

    Zeitüberschreitung

    Gibt die Zeitüberschreitung für FTP-, SFTP-, HTTP- oder HTTPS-Verbindungen in Sekunden an. Dieser Wert muss zwischen 30 und 300 liegen.

    Weitere Zustellversuche

    Gibt die maximale Anzahl weiterer Versuche für fehlgeschlagene FTP-, SFTP-, HTTP- oder HTTPS-Verbindungen an. Dieser Wert muss zwischen 0 und 10 liegen.

    Der Wert null (0) verhindert Wiederholungsversuche.

    Kodierung

    Gibt das Zeichencodierungssystem an, das in der angegebenen Datenquellendatei verwendet wird.

    Trennzeichen

    Gibt das Zeichen an, das Sie zum Trennen der einzelnen Felder in der angegebenen Datenquellendatei verwenden möchten.

    Das Komma ( , ) ist ein Beispiel für ein Trennzeichen. Das Komma dient als Feldtrennzeichen, mit dem Datenfelder in der angegebenen Datenquellendatei getrennt werden können.

    Wählen Sie die Registerkarte aus? , um das horizontale Tabulatorzeichen als Trennzeichen zu verwenden.

    Kopfzeilen in der ersten Zeile

    Gibt an, dass die erste Zeile in der Datenquellendatei nur Kopfzeileninformationen und keine Daten enthält.

    Mindestanzahl von Dokumenten für die Indizierung

    Wenn der Wert auf einen positiven Wert gesetzt wird, gibt dies die Mindestanzahl von Datensätzen an, die in der heruntergeladenen Datei erwartet werden. Wenn weniger Datensätze empfangen werden, wird der Indexvorgang abgebrochen.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    Hinweis: Diese Funktion wird nur bei vollständigen Indexvorgängen verwendet.

    Landkarte

    Gibt Zuordnungen von Spalten zu Metadaten mithilfe von Spaltennummern an.

    • Spalte

      Gibt eine Spaltennummer an, wobei die erste Spalte 1 (1) ist. Um für jede Spalte neue Zuordnungszeilen hinzuzufügen, klicken Sie unter Aktion auf + .

      Sie müssen nicht jede Spalte in der Datenquelle referenzieren. Stattdessen können Sie Werte überspringen.

    • Feld

      Definiert den Attribut name -Wert, der für jedes generierte <meta> -Tag verwendet wird.

    • Metadaten?

      Verursacht, dass Feld zu einer Dropdown-Liste wird, aus der Sie definierte Metadatenfelder für das aktuelle Konto auswählen können.

      Der Wert Feld kann ein nicht definiertes Metadatenfeld sein, falls gewünscht. Manchmal ist ein nicht definiertes Metadatenfeld nützlich, um Inhalte zu erstellen, die von Filterskript verwendet werden.

      Siehe Informationen zum Filtern von Skript .

      Wenn Index Connector XML-Dokumente mit mehreren Treffern in einem Zuordnungsfeld verarbeitet, werden die verschiedenen Werte im resultierenden zwischengespeicherten Dokument zu einem einzigen Wert verkettet. Standardmäßig werden diese Werte mit einem Kommatrennzeichen kombiniert. Angenommen, der entsprechende Wert Feld ist ein definiertes Metadatenfeld. Darüber hinaus ist für dieses Feld das Attribut Zulassungslisten festgelegt. In diesem Fall wird der Wert "Listentrennzeichen"des Felds, das erste definierte Trennzeichen, in der Verkettung verwendet.

    • Primärschlüssel?

      Nur eine Zuordnungsdefinition wird als Primärschlüssel identifiziert. Dieses Feld wird zum eindeutigen Verweis, der angezeigt wird, wenn dieses Dokument zum Index hinzugefügt wird. Dieser Wert wird in der URL des Dokuments im Index verwendet.

      Die -Werte für den Primären Schlüssel müssen in allen Dokumenten eindeutig sein, die von der Index Connector-Konfiguration repräsentiert werden. Alle gefundenen Duplikate werden ignoriert. Wenn Ihre Quelldokumente keinen einzigen eindeutigen Wert enthalten, der als Primärer Schlüssel verwendet werden soll, aber zwei oder mehr Felder zusammen einen eindeutigen Bezeichner bilden können, können Sie den Primären Schlüssel definieren, indem Sie mehrere Spaltenwerte mit einem vertikalen Balken ("|") kombinieren, der die Werte trennt.

    • HTML entfernen?

      Wenn diese Option aktiviert ist, werden alle in den Daten dieses Felds gefundenen HTML-Tags entfernt.

    • Aktion

      Ermöglicht das Hinzufügen von Zeilen zur Zuordnung oder das Entfernen von Zeilen aus der Zuordnung. Die Reihenfolge der Zeilen ist nicht wichtig.

    Datenquellentyp: Feed

    Aktiviert

    Wandelt die Konfiguration "ein"in Crawl und Index um. Alternativ können Sie die Konfiguration "deaktivieren", um Crawling und Indizierung zu verhindern.

    Hinweis: Deaktivierte Index Connector-Konfigurationen werden ignoriert, wenn sie in einer Einstiegspunktliste gefunden werden.

    Hostadresse

    Gibt die IP-Adresse oder die URL-Adresse des Hostsystems an, in dem die Datenquellendatei gefunden wird.

    Dateipfad

    Gibt den Pfad zum primären XML-Dokument an, das mehrere "Zeilen"mit Informationen enthält.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Inkrementeller Dateipfad

    Gibt den Pfad zum inkrementellen XML-Dokument an, das mehrere "Zeilen"mit Informationen enthält.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während der Vorgänge "Inkrementeller Index"heruntergeladen und verarbeitet. Wenn keine Datei angegeben ist, wird stattdessen die unter Dateipfad aufgelistete Datei verwendet.

    Vertikaler Dateipfad

    Gibt den Pfad zum XML-Dokument an, das mehrere wenige "Zeilen"mit Informationen enthält, die während einer vertikalen Aktualisierung verwendet werden sollen.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während des Vorgangs "Vertikale Aktualisierung"heruntergeladen und verarbeitet.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    Löschen des Dateipfads

    Gibt den Pfad zur einfachen Textdatei mit einem einzelnen Dokumentkennungswert pro Zeile an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während der Vorgänge "Inkrementeller Index"heruntergeladen und verarbeitet. Die in dieser Datei gefundenen Werte werden verwendet, um "Löschanfragen"zum Entfernen zuvor indizierter Dokumente zu erstellen. Die Werte in dieser Datei müssen den Werten in den Dateien Vollständiger oder Inkrementeller Dateipfad in der Spalte entsprechen, die als Primärer Schlüssel bezeichnet wird.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    Protokoll

    Gibt das Protokoll an, das für den Zugriff auf die Datei verwendet wird. Sie können aus folgenden Optionen wählen:

    • HTTP

      Bei Bedarf können Sie für den Zugriff auf den HTTP-Server die entsprechenden Authentifizierungsberechtigungen eingeben.

    • HTTPS

      Bei Bedarf können Sie für den Zugriff auf den HTTPS-Server die entsprechenden Authentifizierungsberechtigungen eingeben.

    • FTP

      Sie müssen die entsprechenden Authentifizierungsberechtigungen eingeben, um auf den FTP-Server zugreifen zu können.

    • SFTP

      Sie müssen die entsprechenden Authentifizierungsberechtigungen eingeben, um auf den SFTP-Server zugreifen zu können.

    • Datei

    itemTag

    Identifiziert das XML-Element, mit dem Sie einzelne XML-Zeilen in der angegebenen Datenquellendatei identifizieren können.

    Im folgenden Feed-Fragment eines Adobe XML-Dokuments lautet der ItemTag-Wert beispielsweise record :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=de"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=de"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Mindestanzahl von Dokumenten für die Indizierung

    Wenn der Wert auf einen positiven Wert gesetzt wird, gibt dies die Mindestanzahl von Datensätzen an, die in der heruntergeladenen Datei erwartet werden. Wenn weniger Datensätze empfangen werden, wird der Indexvorgang abgebrochen.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    Hinweis: Diese Funktion wird nur bei vollständigen Indexvorgängen verwendet.

    Landkarte

    Ermöglicht die Angabe von XML-Element-zu-Metadaten-Zuordnungen mithilfe von XPath-Ausdrücken.

    • Tag

      Gibt eine XPath-Darstellung der analysierten XML-Daten an. Unter Verwendung des obigen Beispieldokuments für die Adobe XML unter der Option ItemTag kann es mit der folgenden Syntax zugeordnet werden:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      Die obige Syntax lautet wie folgt:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        Das Attribut displayURL des Elements record ist dem Metadatenfeld page-url zugeordnet.

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        Das Attribut content jedes meta -Elements, das in einem -Metadatenelement enthalten ist, das in einem -Datensatz -Element enthalten ist, dessen Namensattribut title ist, wird dem Metadatenfeld title <a11 zugeordnet/>.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        Das Attribut content jedes meta -Elements, das in einem -Metadatenelement enthalten ist, das innerhalb des Elements record enthalten ist, dessen Namensattribut description ist, wird dem Metadatenfeld desc <a1 zugeordnet 1/>.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        Das Attribut content jedes meta -Elements, das in einem -Metadatenelement enthalten ist, das im Element Datensatz enthalten ist, dessen Namensattribut description ist, wird dem Metadatenfeld body <a1 zugeordnet/>.

      XPath ist eine relativ komplizierte Notation. Weitere Informationen finden Sie unter:

      Siehe https://www.w3schools.com/xpath/

    • Feld

      Definiert den Attribut name -Wert, der für jedes generierte Tag <meta> verwendet wird.

    • Metadaten?

      Verursacht, dass Feld zu einer Dropdown-Liste wird, aus der Sie definierte Metadatenfelder für das aktuelle Konto auswählen können.

      Der Wert Feld kann ein nicht definiertes Metadatenfeld sein, falls gewünscht. Manchmal ist ein nicht definiertes Metadatenfeld nützlich, um Inhalte zu erstellen, die von Filterskript verwendet werden.

      Siehe Informationen zum Filtern von Skript .

      Wenn Index Connector XML-Dokumente mit mehreren Treffern in einem Zuordnungsfeld verarbeitet, werden die verschiedenen Werte im resultierenden zwischengespeicherten Dokument zu einem einzigen Wert verkettet. Standardmäßig werden diese Werte mit einem Kommatrennzeichen kombiniert. Angenommen, der entsprechende Wert Feld ist ein definiertes Metadatenfeld. Darüber hinaus ist für dieses Feld das Attribut Zulassungslisten festgelegt. In diesem Fall wird der Wert "Listentrennzeichen"des Felds, das erste definierte Trennzeichen, in der Verkettung verwendet.

    • Primärschlüssel?

      Nur eine Zuordnungsdefinition wird als Primärschlüssel identifiziert. Dieses Feld wird zum eindeutigen Verweis, der angezeigt wird, wenn dieses Dokument zum Index hinzugefügt wird. Dieser Wert wird in der URL des Dokuments im Index verwendet.

      Die -Werte für den Primären Schlüssel müssen in allen Dokumenten eindeutig sein, die von der Index Connector-Konfiguration repräsentiert werden. Alle gefundenen Duplikate werden ignoriert. Wenn Ihre Quelldokumente keinen einzigen eindeutigen Wert enthalten, der als Primärer Schlüssel verwendet werden soll, aber zwei oder mehr Felder zusammen einen eindeutigen Bezeichner bilden können, können Sie den Primären Schlüssel definieren, indem Sie mehrere Tags mit einer vertikalen Leiste ("|") kombinieren, die die Werte trennen.

    • HTML entfernen?

      Wenn diese Option aktiviert ist, werden alle in den Daten dieses Felds gefundenen HTML-Tags entfernt.

    • Verwenden Sie zum Löschen?

      Wird nur bei Inkrementellen Indexvorgängen verwendet. Datensätze, die diesem XPath-Muster entsprechen, identifizieren Elemente zum Löschen. Der -Wert für den Primären Schlüssel für jeden dieser Datensätze wird verwendet, um "Löschanfragen"zu erstellen, wie dies bei "Löschdateipfad"der Fall ist.

      Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support , um die Funktion für Ihre Verwendung zu aktivieren.

    • Aktion

      Ermöglicht das Hinzufügen von Zeilen zur Zuordnung oder das Entfernen von Zeilen aus der Zuordnung. Die Reihenfolge der Zeilen ist nicht wichtig.

    Datenquellentyp: XML

    Aktiviert

    Wandelt die Konfiguration "ein"in Crawl und Index um. Alternativ können Sie die Konfiguration "deaktivieren", um Crawling und Indizierung zu verhindern.

    Hinweis: Deaktivierte Index Connector-Konfigurationen werden ignoriert, wenn sie in einer Einstiegspunktliste gefunden werden.

    Hostadresse

    Gibt die URL-Adresse des Hostsystems an, in dem die Datenquellendatei gefunden wird.

    Dateipfad

    Gibt den Pfad zum primären XML-Dokument an, das Links enthält ( <a> ) für einzelne XML-Dokumente.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Protokoll

    Gibt das Protokoll an, das für den Zugriff auf die Datei verwendet wird. Sie können aus folgenden Optionen wählen:

    • HTTP

      Bei Bedarf können Sie für den Zugriff auf den HTTP-Server die entsprechenden Authentifizierungsberechtigungen eingeben.

    • HTTPS

      Bei Bedarf können Sie für den Zugriff auf den HTTPS-Server die entsprechenden Authentifizierungsberechtigungen eingeben.

    • FTP

      Sie müssen die entsprechenden Authentifizierungsberechtigungen eingeben, um auf den FTP-Server zugreifen zu können.

    • SFTP

      Sie müssen die entsprechenden Authentifizierungsberechtigungen eingeben, um auf den SFTP-Server zugreifen zu können.

    • Datei

    Hinweis: Die Einstellung Protokoll wird nur verwendet, wenn in den Feldern Host Address und/oder File Path Informationen angegeben sind. Einzelne XML-Dokumente werden gemäß ihren URL-Spezifikationen entweder mit HTTP oder HTTPS heruntergeladen.

    itemTag

    Identifiziert das XML-Element, das eine "Zeile"in der von Ihnen angegebenen Datenquellendatei definiert.

    Landkarte

    Ermöglicht die Angabe von Zuordnungen zwischen Spalten und Metadaten mithilfe von Spaltennummern.

    • Tag

      Gibt eine XPath-Darstellung der analysierten XML-Daten an. Mithilfe des obigen XML-Beispieldokuments für die Adobe können Sie es unter der Option "ItemTag"mit der folgenden Syntax zuordnen:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      Die obige Syntax lautet wie folgt:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        Das Attribut displayURL des Elements record ist dem Metadatenfeld page-url zugeordnet.

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        Das Attribut content jedes meta -Elements, das in einem -Metadatenelement enthalten ist, das in einem -Datensatz -Element enthalten ist, dessen Namensattribut title ist, wird dem Metadatenfeld title <a11 zugeordnet/>.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        Das Attribut content jedes meta -Elements, das in einem -Metadatenelement enthalten ist, das innerhalb des Elements record enthalten ist, dessen Namensattribut description ist, wird dem Metadatenfeld desc <a1 zugeordnet 1/>.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        Das Attribut content jedes meta -Elements, das in einem -Metadatenelement enthalten ist, das im Element Datensatz enthalten ist, dessen Namensattribut description ist, wird dem Metadatenfeld body <a1 zugeordnet/>.

      XPath ist eine relativ komplizierte Notation. Weitere Informationen finden Sie unter:

      Siehe https://www.w3schools.com/xpath/

    • Feld

      Definiert den Attribut name -Wert, der für jedes generierte <meta> -Tag verwendet wird.

    • Metadaten?

      Verursacht, dass Feld zu einer Dropdown-Liste wird, aus der Sie definierte Metadatenfelder für das aktuelle Konto auswählen können.

      Der Wert Feld kann ein nicht definiertes Metadatenfeld sein, falls gewünscht. Manchmal ist ein nicht definiertes Metadatenfeld nützlich, um Inhalte zu erstellen, die von Filterskript verwendet werden.

      Siehe Informationen zum Filtern von Skript .

      Wenn Index Connector XML-Dokumente mit mehreren Treffern in einem Zuordnungsfeld verarbeitet, werden die verschiedenen Werte im resultierenden zwischengespeicherten Dokument zu einem einzigen Wert verkettet. Standardmäßig werden diese Werte mit einem Kommatrennzeichen kombiniert. Angenommen, der entsprechende Wert Feld ist ein definiertes Metadatenfeld. Darüber hinaus ist für dieses Feld das Attribut Zulassungslisten festgelegt. In diesem Fall wird der Wert "Listentrennzeichen"des Felds, das erste definierte Trennzeichen, in der Verkettung verwendet.

    • Primärschlüssel?

      Nur eine Zuordnungsdefinition wird als Primärschlüssel identifiziert. Dieses Feld wird zum eindeutigen Verweis, der angezeigt wird, wenn dieses Dokument zum Index hinzugefügt wird. Dieser Wert wird in der URL des Dokuments im Index verwendet.

      Die -Werte für den Primären Schlüssel müssen in allen Dokumenten eindeutig sein, die von der Index Connector-Konfiguration repräsentiert werden. Alle gefundenen Duplikate werden ignoriert. Wenn Ihre Quelldokumente keinen einzigen eindeutigen Wert enthalten, der als Primärer Schlüssel verwendet werden soll, aber zwei oder mehr Felder zusammen einen eindeutigen Bezeichner bilden können, können Sie den Primären Schlüssel definieren, indem Sie mehrere Tags mit einer vertikalen Leiste ("|") kombinieren, die die Werte trennen.

    • HTML entfernen?

      Wenn diese Option aktiviert ist, werden alle in den Daten dieses Felds gefundenen HTML-Tags entfernt.

    • Aktion

      Ermöglicht das Hinzufügen von Zeilen zur Zuordnung oder das Entfernen von Zeilen aus der Zuordnung. Die Reihenfolge der Zeilen ist nicht wichtig.

  4. (Optional) Klicken Sie auf Setup Maps , um ein Beispiel Ihrer Datenquelle herunterzuladen. Die Daten werden auf Indizierungseignung geprüft. Diese Funktion ist nur für Text- und Feed-Typen verfügbar.

  5. (Optional) Klicken Sie auf Preview , um die tatsächliche Funktionsweise der Konfiguration zu testen. Diese Funktion ist nur für Text- und Feed-Typen verfügbar.

  6. Klicken Sie auf Add , um die Konfiguration zur Seite Index Connector Definitions und zur Dropdown-Liste Index Connector Configurations auf der Seite URL Entrypoints hinzuzufügen.

    Siehe Über URL-Endpunkte.

  7. Klicken Sie auf der Seite Index Connector Definitions auf rebuild your staged site index.

  8. (Optional) Führen Sie auf der Seite Index Connector Definitions einen der folgenden Schritte aus:

Bearbeiten einer Index Connector-Definition

Sie können einen vorhandenen Index Connector bearbeiten, den Sie definiert haben.

HINWEIS

Es stehen nicht alle Optionen zur Verfügung, die Sie ändern können, z. B. den Index-Connector-Namen oder den Typ aus der Dropdownliste Type .

So bearbeiten Sie eine Index Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Seite Index Connector unter der Spaltenüberschrift Actions auf Edit für einen Index Connector-Definitionsnamen, dessen Einstellungen Sie ändern möchten.

  3. Legen Sie auf der Seite Index Connector Edit die gewünschten Optionen fest.

    Siehe Tabelle der Optionen unter Definition des Index-Connectors hinzufügen.

  4. Klicken Save Changes.

  5. (Optional) Klicken Sie auf der Seite Index Connector Definitions auf rebuild your staged site index.

  6. (Optional) Führen Sie auf der Seite Index Connector Definitions einen der folgenden Schritte aus:

Anzeigen der Einstellungen einer Index Connector-Definition

Sie können die Konfigurationseinstellungen einer vorhandenen Index-Connector-Definition überprüfen.

Nachdem der Seite Index Connector Definitions eine Definition des Index-Connectors hinzugefügt wurde, können Sie die Einstellung Typ nicht ändern. Stattdessen müssen Sie die Definition löschen und dann eine neue hinzufügen.

So zeigen Sie die Einstellungen einer Index Connector-Definition an

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.
  2. Klicken Sie auf der Seite Index Connector unter der Spaltenüberschrift Actions auf Edit für einen Index Connector-Definitionsnamen, dessen Einstellungen Sie überprüfen oder bearbeiten möchten.

Kopieren einer Index Connector-Definition

Sie können eine vorhandene Index Connector-Definition kopieren, um sie als Grundlage für einen neuen Index Connector zu verwenden, den Sie erstellen möchten.

Beim Kopieren einer Index Connector-Definition ist die kopierte Definition standardmäßig deaktiviert. Um die Definition zu aktivieren oder zu aktivieren, müssen Sie sie auf der Seite Index Connector Edit bearbeiten und Enable auswählen.

Siehe Bearbeiten einer Index Connector-Definition.

So kopieren Sie eine Index-Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Seite Index Connector unter der Spaltenüberschrift Actions auf Copy für einen Index Connector-Definitionsnamen, dessen Einstellungen Sie duplizieren möchten.

  3. Geben Sie auf der Seite Index Connector Copy den neuen Namen der Definition ein.

  4. Klicken Copy.

  5. (Optional) Führen Sie auf der Seite Index Connector Definitions einen der folgenden Schritte aus:

Umbenennen einer Index Connector-Definition

Sie können den Namen einer vorhandenen Index Connector-Definition ändern.

Nachdem Sie die Definition umbenannt haben, aktivieren Sie Settings > Crawling > URL Entrypoints. Sie möchten sicherstellen, dass der neue Definitionsname in der Dropdown-Liste auf der Seite URL Entrypoints angezeigt wird.

Siehe Hinzufügen mehrerer URL-Einstiegspunkte, die indiziert werden sollen.

So benennen Sie eine Index Connector-Definition um

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Seite Index Connector unter der Spaltenüberschrift Actions unter Index Connector-Definitionsname auf Rename , den Sie ändern möchten.

  3. Geben Sie auf der Seite Index Connector Rename im Feld Name den neuen Namen der Definition ein.

  4. Klicken Rename.

  5. Klicken Sie auf Settings > Crawling > URL Entrypoints. Wenn der Name des vorherigen Index-Connectors in der Liste vorhanden ist, entfernen Sie ihn und fügen Sie den neu umbenannten Eintrag hinzu.

    Siehe Hinzufügen mehrerer URL-Einstiegspunkte, die indiziert werden sollen. 1. (Optional) Führen Sie auf der Seite Index Connector Definitions einen der folgenden Schritte aus:

Löschen einer Index Connector-Definition

Sie können eine vorhandene Index Connector-Definition löschen, die Sie nicht mehr benötigen oder verwenden.

So löschen Sie eine Index Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.
  2. Klicken Sie auf der Seite Index Connector Definitions unter der Spaltenüberschrift Actions für den Definitionsnamen des Index Connector, den Sie entfernen möchten, auf Delete .
  3. Klicken Sie auf der Seite Index Connector Delete auf Delete.

Auf dieser Seite