Menü "Crawling"

Verwenden Sie das Menü "Crawling"(Crawling-Menü) mit Datums- und URL-Masken, Kennwörtern, Inhaltstypen, Verbindungen, Formulardefinitionen und URL-Einstiegspunkten.

Informationen zu URL-Einstiegspunkten

Die meisten Websites verfügen über einen primären Einstiegspunkt oder eine Startseite, die/die ein Kunde ursprünglich besucht. Dieser Haupteinstiegspunkt ist die URL-Adresse, von der aus der Suchroboter Indexcrawling beginnt. Wenn Ihre Website jedoch über mehrere Domänen oder Subdomänen verfügt oder Teile Ihrer Site nicht vom primären Einstiegspunkt aus verknüpft sind, können Sie mit URL-Einstiegspunkten weitere Einstiegspunkte hinzufügen.

Alle Webseiten unter jedem angegebenen URL-Einstiegspunkt werden indiziert. Sie können URL-Einstiegspunkte mit Masken kombinieren, um genau zu steuern, welche Teile einer Website Sie indizieren möchten. Sie müssen Ihren Website-Index neu erstellen, bevor die Auswirkungen der URL-Entrypoints-Einstellungen für Kunden sichtbar sind.

Der Haupteinstiegspunkt ist normalerweise die URL der Website, die Sie indizieren und suchen möchten. Sie konfigurieren diesen Haupteinstiegspunkt in den Kontoeinstellungen.

Siehe Konfigurieren der Kontoeinstellungen.

Nachdem Sie den Einstiegspunkt der Haupt-URL angegeben haben, können Sie optional zusätzliche Einstiegspunkte angeben, die Sie in der richtigen Reihenfolge durchsuchen möchten. Meistens geben Sie zusätzliche Einstiegspunkte für Webseiten an, die nicht von Seiten unter dem Haupteinstiegspunkt verlinkt sind. Geben Sie zusätzliche Einstiegspunkte an, wenn Ihre Website mehr als eine Domäne umfasst (siehe folgendes Beispiel):

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

Sie qualifizieren jeden Einstiegspunkt mit einem oder mehreren der folgenden durch Leerzeichen getrennten Suchbegriffe in der unten stehenden Tabelle. Diese Suchbegriffe beeinflussen, wie die Seite indiziert wird.

Wichtig: Achten Sie darauf, einen bestimmten Suchbegriff vom Einstiegspunkt und von einem Leerzeichen voneinander zu trennen. Komma ist kein gültiges Trennzeichen.

Suchbegriff

Beschreibung

noindex

Wenn Sie den Text nicht auf der Einstiegsseite indizieren möchten, aber den Links der Seite folgen möchten, fügen Sie ihn noindex nach dem Einstiegspunkt hinzu.

Trennen Sie den Suchbegriff vom Einstiegspunkt durch ein Leerzeichen, wie im folgenden Beispiel dargestellt:

https://www.my-additional-domain.com/more_pages/main.html noindex

Dieser Suchbegriff entspricht einem robots meta-Tag mit content="noindex" ) zwischen der <head> ... </head> -Tags der Einstiegsseite.

nofollow

Wenn Sie den Text auf der Einstiegsseite indizieren möchten, aber keinem der Links auf der Seite folgen möchten, fügen Sie ihn nofollow nach dem Einstiegspunkt hinzu.

Trennen Sie den Suchbegriff vom Einstiegspunkt durch ein Leerzeichen, wie im folgenden Beispiel dargestellt:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

Dieser Suchbegriff entspricht einem robots meta-Tag content="nofollow" zwischen dem <head> ... </head> -Tag einer Einstiegsseite.

form

Wenn der Einstiegspunkt eine Anmeldeseite ist, form wird in der Regel verwendet, damit der Suchroboter das Anmeldeformular senden und die entsprechenden Cookies empfangen kann, bevor er die Website durchsucht. Wenn das Schlüsselwort "form"verwendet wird, wird die Einstiegsseite nicht indiziert und der Suchroboter markiert die Einstiegsseite nicht als durchgekrackt. Verwenden Sie diese Option, nofollow wenn der Suchroboter den Links der Seite nicht folgen soll.

Siehe auch Informationen zu Inhaltstypen.

Siehe auch Info zu Index Connector.

Hinzufügen mehrerer URL-Einstiegspunkte, die indiziert werden sollen

Wenn Ihre Website mehrere Domänen oder Subdomänen hat und Sie diese durchsuchen möchten, können Sie URL-Einstiegspunkte verwenden, um weitere URLs hinzuzufügen.

Um den Haupteinstiegspunkt für die URL Ihrer Website festzulegen, verwenden Sie die Kontoeinstellungen.

Siehe Konfigurieren der Kontoeinstellungen.

So fügen Sie mehrere URL-Einstiegspunkte hinzu, die Sie indizieren möchten

  1. Klicken Sie im Produktmenü auf Settings > Crawling > URL Entrypoints.

  2. Geben Sie auf der URL Entrypoints Seite im Entrypoints Feld eine URL-Adresse pro Zeile ein.

  3. (Optional) Wählen Sie in der Add Index Connector Configurations Dropdown-Liste einen Indexanschluss aus, den Sie als Einstiegspunkt für die Indexierung hinzufügen möchten.

    Die Dropdown-Liste ist nur verfügbar, wenn Sie zuvor eine oder mehrere Indexschnittstellendefinitionen hinzugefügt haben.

    Siehe Hinzufügen einer Index-Connector-Definition.

  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

URL-Masken

URL-Masken sind Muster, mit denen bestimmt wird, welche Dokumente auf Ihrer Website von den Suchrobotern indiziert werden oder nicht.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Im Folgenden sind zwei Arten von URL-Masken aufgeführt, die Sie verwenden können:

  • URL-Masken einschließen
  • URL-Masken ausschließen

"URL-Masken einschließen"weist den Suchroboter an, alle Dokumente zu indizieren, die dem Maskenmuster entsprechen.

URL-Masken ausschließen weist den Suchroboter an, passende Dokumente zu indizieren.

Während der Suchroboter von einem Link zum Link durch Ihre Website reist, findet er URLs und sucht nach Masken, die mit diesen URLs übereinstimmen. Die erste Übereinstimmung bestimmt, ob diese URL in den Index aufgenommen oder ausgeschlossen werden soll. Entspricht keine Maske einer gefundenen URL, wird diese URL aus dem Index verworfen.

URL-Masken für Einstiegs-URLs einschließen werden automatisch generiert. Dadurch wird sichergestellt, dass alle auf Ihrer Website aufgetretenen Dokumente indiziert sind. Es entfernt auch bequem mit Links, die Ihre Website "verlassen". Wenn beispielsweise eine indizierte Seite mit https://www.yahoo.com verknüpft ist, wird diese URL nicht vom Suchroboter indiziert, da sie nicht mit der automatisch von der Einstiegs-URL generierten Einschlussmaske übereinstimmt.

Jede URL-Maske, die Sie angeben, muss sich in einer separaten Zeile befinden.

Die Maske kann Folgendes angeben:

  • Ein vollständiger Pfad wie in https://www.mydomain.com/products.html.

  • Ein teilweiser Pfad wie in https://www.mydomain.com/products.

  • Eine URL, die Platzhalter wie in verwendet https://www.mydomain.com/*.html.

  • Ein regulärer Ausdruck (für fortgeschrittene Benutzer).

    Um eine Maske zu einem regulären Ausdruck zu machen, fügen Sie das Schlüsselwort regexp zwischen dem Maskentyp ( exclude oder include) und der URL-Maske ein.

Im Folgenden sehen Sie ein einfaches Beispiel für eine URL-Maske zum Ausschließen:

exclude https://www.mydomain.com/photos

Da es sich bei diesem Beispiel um eine URL-Maske zum Ausschließen handelt, wird jedes Dokument, das dem Muster entspricht, nicht indiziert. Das Muster stimmt mit allen gefundenen Elementen überein, sowohl mit Dateien als auch mit Ordnern, sodass https://www.mydomain.com/photos.html und https://www.mydomain.com/photos/index.htmlbeide mit der Ausschluss-URL übereinstimmen, nicht indiziert werden. Um nur Dateien im /photos/ Ordner zuzuordnen, muss die URL-Maske einen nachfolgenden Schrägstrich enthalten (siehe folgendes Beispiel):

exclude https://www.mydomain.com/photos/

Im folgenden Beispiel für die Ausschlussmaske wird eine Platzhalterkarte verwendet. Er weist den Suchroboter an, Dateien mit der Erweiterung ".pdf"zu übersehen. Der Suchroboter fügt diese Dateien nicht zu Ihrem Index hinzu.

exclude *.pdf

Eine einfache URL-Maske zum Einschließen lautet wie folgt:

include https://www.mydomain.com/news/

Es werden nur Dokumente indiziert, die über eine Reihe von Links von einem URL-Einstiegspunkt aus verknüpft sind oder die selbst als URL-Einstiegspunkt verwendet werden. Die bloße Auflistung der URL eines Dokuments als URL-Maske zum Einschließen von Elementen indiziert kein nicht verknüpftes Dokument. Um Ihrem Index nicht verknüpfte Dokumente hinzuzufügen, können Sie die Funktion "URL-Einstiegspunkte"verwenden.

Siehe Informationen zu URL-Einträgen.

Masken einschließen und Masken ausschließen können zusammen funktionieren. Sie können einen großen Teil Ihrer Website von der Indexierung ausschließen, indem Sie eine URL-Maske zum Ausschließen erstellen, aber eine oder mehrere der ausgeschlossenen Seiten mit einer URL-Maske zum Einschließen einschließen. Angenommen, Ihre Einstiegspunkt-URL lautet wie folgt:

https://www.mydomain.com/photos/

Der Suchroboter durchsucht und indiziert alle Seiten unter /photos/summer/und /photos/spring/ (vorausgesetzt, dass es Links zu mindestens einer Seite in jedem Verzeichnis aus dem /photos/fall/ photos Ordner gibt). Dieses Verhalten tritt auf, weil die Verknüpfungspfade es dem Suchroboter ermöglichen, die Dokumente im Ordner /summer/, /spring/und /fall/Ordner und die Ordner-URLs zu finden, die mit der Include-Maske übereinstimmen, die automatisch von der Einstiegs-URL generiert wird.

Sie können alle Seiten im /fall/ Ordner mit einer URL-Maske ausschließen, wie im folgenden Beispiel dargestellt:

exclude https://www.mydomain.com/photos/fall/

Oder fügen Sie selektiv nur /photos/fall/redleaves4.html als Teil des Indexes mit der folgenden URL-Maske ein:

include https://www.mydomain.com/photos/fall/redleaves4.html

Damit die beiden oben genannten Maskenbeispiele wie gewünscht funktionieren, wird zuerst die Maske zum Einschließen aufgelistet, wie im Folgenden:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

Da der Suchroboter den Anweisungen in der Reihenfolge folgt, in der sie aufgelistet sind, schließt der Suchroboter zunächst die übrigen Dateien im /photos/fall/redleaves4.htmlOrdner ein /fall und schließt sie dann aus.

Wenn die Anweisungen anders angegeben werden wie in der folgenden Tabelle:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

Dann /photos/fall/redleaves4.html wird nicht einbezogen, auch wenn die Maske angibt, dass sie eingeschlossen ist.

Eine zuerst angezeigte URL-Maske hat immer Vorrang vor einer URL-Maske, die später in den Maskeneinstellungen angezeigt wird. Wenn der Suchroboter außerdem auf eine Seite trifft, die mit einer URL-Maske zum Einschließen und einer URL-Maske zum Ausschließen übereinstimmt, hat die zuerst aufgeführte Maske immer Vorrang.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Grundlagen zur Verwendung von Suchbegriffen mit URL-Masken

Sie können jede Include-Maske mit einem oder mehreren durch Leerzeichen getrennten Suchbegriffen qualifizieren, was sich auf die Indexierung der entsprechenden Seiten auswirkt.

Ein Komma ist nicht als Trennzeichen zwischen der Maske und dem Schlüsselwort gültig. Sie können nur Leerzeichen verwenden.

Suchbegriff

Beschreibung

noindex

Wenn Sie den Text nicht auf den Seiten indizieren möchten, die mit der URL-Maske übereinstimmen, aber die Links zu den entsprechenden Seiten befolgen möchten, fügen Sie ihn noindex nach der Maske "URL einschließen"hinzu. Stellen Sie sicher, dass Sie den Suchbegriff von der Maske mit einem Leerzeichen trennen, wie im folgenden Beispiel gezeigt:

include&nbsp;*.swf&nbsp;noindex

Im obigen Beispiel wird angegeben, dass der Suchroboter alle Links von Dateien mit der .swf Erweiterung befolgt, aber die Indexierung des gesamten Textes in diesen Dateien deaktiviert.

Der noindex Suchbegriff entspricht einem Roboter-Meta-Tag content="noindex" zwischen den <head>...</head> Tags der entsprechenden Seiten.

nofollow

Wenn Sie den Text auf den Seiten indizieren möchten, die mit der URL-Maske übereinstimmen, aber nicht den Links der entsprechenden Seite folgen möchten, fügen Sie ihn nofollow nach der Maske "URL einschließen"hinzu. Stellen Sie sicher, dass Sie den Suchbegriff von der Maske mit einem Leerzeichen trennen, wie im folgenden Beispiel gezeigt:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Der nofollow Suchbegriff entspricht einem Roboter-Meta-Tag content="nofollow" zwischen den <head>...</head> Tags der entsprechenden Seiten.

regexp

Dient zum Einschließen und Ausschließen von Masken.

Jede mit vorangestellte URL-Maske regexp wird als regulärer Ausdruck behandelt. Wenn der Suchroboter auf Dokumente trifft, die mit einer URL-Maske für reguläre Ausdruck übereinstimmen, werden diese Dokumente nicht indiziert. Wenn der Suchroboter auf Dokumente trifft, die mit einer URL-Maske für reguläre Ausdruck übereinstimmen, werden diese Dokumente indiziert. Angenommen, Sie haben die folgende URL-Maske:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

Der Suchroboter schließt übereinstimmende Dateien wie https://www.mydomain.com/products/page1.html

Wenn Sie die folgende URL-Maske für regulären Ausdruck ausschließen hatten:

exclude&nbsp;regexp&nbsp;^.*\?..*$

Der Suchroboter darf keine URL mit einem CGI-Parameter wie https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2 .

Wenn Sie die folgende URL-Maske für regulären Ausdruck hatten:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

Der Suchroboter folgt allen Links von Dateien mit der Erweiterung ".swf". Der noindex Suchbegriff gibt auch an, dass der Text der übereinstimmenden Dateien nicht indiziert ist.

Siehe Reguläre Ausdrücke .

Hinzufügen von URL-Masken zum Indexieren von Teilen Ihrer Website

Sie können URL Masks festlegen, welche Teile Ihrer Website durchsucht und indiziert werden sollen.

Verwenden Sie das Feld "URL-Masken testen", um zu testen, ob ein Dokument nach dem Index enthalten ist oder nicht.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

So fügen Sie URL-Masken hinzu, um Teile Ihrer Website zu indizieren oder nicht

  1. Klicken Sie im Produktmenü auf Settings > Crawling > URL Masks.

  2. (Optional) Geben Sie auf der URL Masks Seite im Test URL Masks Feld eine Test-URL-Maske von Ihrer Website ein und klicken Sie dann auf Test.

  3. Geben Sie in das URL Masks Feld include (um eine Website hinzuzufügen, die durchsucht und indexiert werden soll) oder geben Sie exclude (um zu verhindern, dass eine Website durchsucht und indiziert wird) gefolgt von der Adresse der URL-Maske ein.

    Geben Sie pro Zeile eine URL-Maske-Adresse ein. Beispiel:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Info zu Datumsmasken

Sie können Datumsmasken verwenden, um Dateien je nach Alter der Datei in die Suchergebnisse einzuschließen oder auszuschließen.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Im Folgenden sind zwei Arten von Datumsmasken aufgeführt, die Sie verwenden können:

  • Datumsmasken einschließen ("einschließlich Tage"und "Datum einschließen")

    Schließen Sie Datumsmasken-Indexdateien ein, die am oder vor dem angegebenen Datum datiert sind.

  • Datumsmasken ausschließen ("Ausschluss-Tage"und "Ausschlussdatum")

    Schließen Sie Datumsmasken-Indexdateien aus, die am oder vor dem angegebenen Datum datiert sind.

Standardmäßig wird das Dateidatum anhand der Meta-Tag-Informationen bestimmt. Wenn kein Meta-Tag gefunden wird, wird das Datum einer Datei anhand des HTTP-Headers ermittelt, der vom Server empfangen wird, wenn der Suchroboter eine Datei herunterlädt.

Jede angegebene Datumsmaske muss sich in einer separaten Zeile befinden.

Die Maske kann Folgendes angeben:

  • Ein vollständiger Pfad wie in https://www.mydomain.com/products.html
  • Ein partieller Pfad wie in https://www.mydomain.com/products
  • Eine URL, die Platzhalter verwendet https://www.mydomain.com/*.html
  • Ein regulärer Ausdruck. Um eine Maske zu einem regulären Ausdruck zu machen, fügen Sie den Suchbegriff regexp vor der URL ein.

Datumsmasken einschließen und ausschließen können auf eine der beiden folgenden Arten ein Datum angeben. Die Masken werden nur angewendet, wenn die entsprechenden Dateien am oder vor dem angegebenen Datum erstellt wurden:

  1. Eine Anzahl von Tagen. Angenommen, Ihre Datumsmaske lautet wie folgt:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    Die Anzahl der angegebenen Tage wird zurückgezählt. Wenn die Datei am oder vor dem Datum der Ankunft am Tag datiert ist, wird die Maske angewendet.

  2. Ein aktuelles Datum im Format JJJJ-MM-TT. Angenommen, Ihre Datumsmaske lautet wie folgt:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    Wenn das übereinstimmende Dokument am oder vor dem angegebenen Datum datiert ist, wird die Datumsmaske angewendet.

Im Folgenden finden Sie ein einfaches Beispiel für eine Ausschluss-Datumsmaske:

exclude-days 90 https://www.mydomain.com/docs/archive

Da es sich hierbei um eine Ausschlussdatumsmaske handelt, wird jede Datei, die dem Muster entspricht, nicht indiziert und ist mindestens 90 Tage alt. Wenn Sie ein Dokument ausschließen, wird kein Text indiziert und es werden keine Links aus dieser Datei gefolgt. Die Datei wird effektiv ignoriert. In diesem Beispiel stimmen Dateien und Ordner möglicherweise mit dem angegebenen URL-Muster überein. Beachten Sie, dass sowohl https://www.mydomain.com/docs/archive.html als auch https://www.mydomain.com/docs/archive/index.html dem Muster entsprechen und nicht indiziert sind, wenn sie 90 Tage alt oder älter sind. Um nur Dateien im /docs/archive/ Ordner zuzuordnen, muss die Datumsmaske einen nachfolgenden Schrägstrich wie folgt enthalten:

exclude-days 90 https://www.mydomain.com/docs/archive/

Datumsmasken können auch mit Platzhaltern verwendet werden. Die folgende Ausschlussmaske weist den Suchroboter an, Dateien mit der Erweiterung ".pdf"zu übersehen, die am oder vor dem 15.02.2011 datiert sind. Der Suchroboter fügt Ihrem Index keine übereinstimmenden Dateien hinzu.

exclude-date 2011-02-15 *.pdf

Die Option "Datumsmaske einschließen"sieht ähnlich aus. Dem Index werden nur übereinstimmende Dateien hinzugefügt. Im folgenden Beispiel für die Datumsmaske einschließen wird der Suchroboter angewiesen, den Text aus Dateien zu indizieren, die im Bereich der Website /docs/archive/manual/ null Tage oder älter sind.

include-days 0 https://www.mydomain.com/docs/archive/manual/

Masken einschließen und Masken ausschließen können zusammen funktionieren. Sie können beispielsweise einen Großteil Ihrer Website von der Indizierung ausschließen, indem Sie eine Ausschlussdatumsmaske erstellen und dabei mindestens eine der ausgeschlossenen Seiten mit einer Einschließen-URL-Maske einschließen. Wenn Ihre Einstiegspunkt-URL die folgende ist:

https://www.mydomain.com/archive/

Der Suchroboter durchsucht und indiziert alle Seiten unter /archive/summer/, /archive/spring/und /archive/fall/ (vorausgesetzt, dass es Links zu mindestens einer Seite in jedem Ordner aus dem archive Ordner gibt). Dieses Verhalten liegt daran, dass die Link-Pfade es dem Suchroboter ermöglichen, die Dateien in den Ordnern /summer/, /spring/und /fall/ zu finden, und die Ordner-URLs mit der Include-Maske übereinstimmen, die automatisch von der Einstiegspunkt-URL generiert wird.

Siehe Informationen zu URL-Einträgen.

Siehe Konfigurieren der Kontoeinstellungen.

Sie können alle über 90 Tage alten Seiten im /fall/ Ordner mit einer Maske zum Ausschließen des Datums ausschließen, wie im Folgenden dargestellt:

exclude-days 90 https://www.mydomain.com/archive/fall/

Sie können nur /archive/fall/index.html (unabhängig davon, wie alt sie ist - eine Datei mit 0 Tagen oder älter wird zugeordnet) als Teil des Index mit der folgenden Datumsmaske einschließen:

include-days 0 https://www.mydomain.com/archive/fall/index.html

Damit die beiden oben genannten Maskenbeispiele wie gewünscht funktionieren, müssen Sie die Einschlussmaske wie folgt zuerst Liste haben:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

Da der Suchroboter den Anweisungen in der Reihenfolge folgt, in der sie angegeben sind, schließt der Suchroboter zunächst die übrigen Dateien im /archive/fall/index.htmlOrdner ein /fall und schließt sie dann aus.

Wenn die Anweisungen anders angegeben werden wie in der folgenden Tabelle:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

Dann /archive/fall/index.html wird nicht einbezogen, auch wenn die Maske dies vorgibt. Eine zuerst angezeigte Datumsmaske hat immer Vorrang vor einer Datumsmaske, die später in den Maskeneinstellungen angezeigt wird. Wenn der Suchroboter außerdem auf eine Seite trifft, die sowohl mit einer einschließenden Datumsmaske als auch mit einer Datumsmaske zum Ausschließen übereinstimmt, hat die zuerst aufgeführte Maske immer Vorrang.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Grundlagen zur Verwendung von Suchbegriffen mit Datumsmasken

Sie können jede Include-Maske mit einem oder mehreren durch Leerzeichen getrennten Suchbegriffen qualifizieren, was sich auf die Indexierung der entsprechenden Seiten auswirkt.

Ein Komma ist nicht als Trennzeichen zwischen der Maske und dem Schlüsselwort gültig. Sie können nur Leerzeichen verwenden.

Suchbegriff

Beschreibung

noindex

Wenn Sie den Text nicht auf den Seiten indizieren möchten, die am oder vor dem Datum datiert sind, das durch die Include-Maske angegeben wird, fügen Sie ihn nach der Maske für das Datum einschließen wie folgt hinzu: noindex

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

Achten Sie darauf, dass Sie den Suchbegriff von der Maske durch einen Leerzeichen trennen.

Das obige Beispiel gibt an, dass der Suchroboter alle Links von Dateien mit der Erweiterung ".swf"befolgt, die mindestens 10 Tage alt sind. Sie deaktiviert jedoch die Indexierung des gesamten Textes, der in diesen Dateien enthalten ist.

Sie sollten sicherstellen, dass der Text für ältere Dateien nicht indiziert ist, sondern trotzdem alle Links aus diesen Dateien befolgen. Verwenden Sie in solchen Fällen eine Datumsmaske zum Einschließen mit dem Schlüsselwort "noindex", anstatt eine Datumsmaske zum Ausschließen zu verwenden.

nofollow

Wenn Sie den Text auf den Seiten indizieren möchten, die am oder vor dem von der Include-Maske angegebenen Datum datiert sind, aber nicht den Links der entsprechenden Seite folgen möchten, fügen Sie ihn nach der Maske zum Einschließen des Datums wie folgt hinzu: nofollow

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

Achten Sie darauf, dass Sie den Suchbegriff von der Maske durch einen Leerzeichen trennen.

Der nofollow Suchbegriff entspricht einem Roboter-Meta-Tag content="nofollow" zwischen dem <head>...</head> Tag der entsprechenden Seiten.

server-date

Dient zum Einschließen und Ausschließen von Masken.

Der Suchroboter lädt im Allgemeinen jede Datei herunter und analysiert sie, bevor er die Datumsmasken überprüft. Dieses Verhalten tritt auf, da einige Dateitypen ein Datum in der Datei selbst angeben können. Ein HTML-Dokument kann beispielsweise Meta-Tags enthalten, mit denen das Dateidatum festgelegt wird.

Wenn Sie viele Dateien je nach Datum ausschließen möchten und keine unnötige Belastung Ihrer Server verursachen möchten, können Sie die URL in der Datumsmaske server-date nach der URL verwenden.

Dieser Suchbegriff weist den Suchroboter an, dem Datum der Datei, die von Ihrem Server zurückgegeben wird, zu vertrauen, anstatt jede Datei zu analysieren. Bei der folgenden Datumsmaske zum Ausschließen werden z. B. Seiten ignoriert, die mit der URL übereinstimmen, wenn die Dokumente 90 Tage oder älter sind, und zwar entsprechend dem vom Server in den HTTP-Kopfzeilen zurückgegebenen Datum:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

Wenn das vom Server zurückgegebene Datum 90 Tage oder länger zurückliegt, server-date gibt dies an, dass die ausgeschlossenen Dokumente nicht von Ihrem Server heruntergeladen werden. Dies bedeutet eine schnellere Indexierung Ihrer Dokumente und eine geringere Belastung Ihrer Server. Wenn server-date keine Angabe gemacht wird, ignoriert der Suchroboter das vom Server in den HTTP-Headern zurückgegebene Datum. Stattdessen wird jede Datei heruntergeladen und überprüft, um zu sehen, ob das Datum angegeben ist. Wenn in der Datei kein Datum angegeben ist, verwendet der Suchroboter das vom Server zurückgegebene Datum.

Verwenden Sie diese Option nicht, server-date wenn Ihre Dateien Befehle enthalten, die das Serverdatum außer Kraft setzen.

regexp

Verwenden Sie diese sowohl für ein- als auch für ausgeschlossene Masken.

Jede Datumsmaske, der ein Ausdruck vorangeht, regexp wird wie ein regulärer Vorgang behandelt.

Wenn der Suchroboter auf Dateien trifft, die mit der Datumsmaske "Regulärer Ausdruck ausschließen"übereinstimmen, werden diese nicht indiziert.

Wenn der Suchroboter auf Dateien trifft, die mit einer Datumsmaske mit regulärem Ausdruck übereinstimmen, werden diese Dokumente indiziert.

Angenommen, Sie haben die folgende Datumsmaske:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

Die Maske weist den Suchroboter an, passende Dateien, die 180 Tage oder älter sind, auszuschließen. Das heißt, Dateien, die das Wort "Archiv"in ihrer URL enthalten.

Siehe Reguläre Ausdrücke .

Hinzufügen von Datumsmasken zum Indexieren oder Nicht-Indexieren von Teilen Ihrer Website

Sie können Datumsmasken verwenden, um Dateien je nach Alter der Dateien in die Suchergebnisse des Kunden einzuschließen oder auszuschließen.

Verwenden Sie die Felder Test Date und Test URL , um zu testen, ob eine Datei nach dem Index enthalten ist oder nicht.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer URL-Masken für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

So fügen Sie Datumsmasken hinzu, um Teile Ihrer Website zu indizieren oder nicht

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Date Masks.

  2. (Optional) Geben Sie auf der Date Masks Seite im Test Date Feld ein Datum im Format JJJJ-MM-TT ein (z. B. 2011-07-25). Geben Sie im Test URL Feld eine URL-Maske von Ihrer Website ein und klicken Sie dann auf Test.

  3. Geben Sie in das Date Masks Feld eine Adresse für die Datumsmaske pro Zeile ein.

  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Informationen zu Kennwörtern

Um auf Teile Ihrer Website zuzugreifen, die mit der HTTP Basic-Authentifizierung geschützt sind, können Sie ein oder mehrere Kennwörter hinzufügen.

Bevor die Auswirkungen der Kennworteinstellungen für Kunden sichtbar sind, müssen Sie den Site-Index neu erstellen.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Auf der Passwords Seite geben Sie jedes Kennwort in einer einzelnen Zeile ein. Das Kennwort besteht aus einer URL oder einem Realm, einem Benutzernamen und einem Kennwort, wie im folgenden Beispiel:

https://www.mydomain.com/ myname mypassword

Anstelle eines URL-Pfads wie oben können Sie auch einen Bereich angeben.

Um den richtigen Bereich zu bestimmen, öffnen Sie eine kennwortgeschützte Webseite mit einem Browser und sehen Sie sich das Dialogfeld "Netzwerkkennwort eingeben"an.

Der Realm-Name ist in diesem Fall "Mein Site-Bereich".

Mithilfe des oben stehenden Bereichsnamens könnte Ihr Kennwort wie folgt aussehen:

My Site Realm myusername mypassword

Wenn Ihre Website über mehrere Realms verfügt, können Sie mehrere Passwörter erstellen, indem Sie für jeden Bereich einen Benutzernamen und ein Kennwort in einer separaten Zeile eingeben, wie im folgenden Beispiel dargestellt:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

Sie können Kennwörter, die URLs oder Realms enthalten, miteinander kombinieren, sodass die Liste des Kennworts wie folgt aussehen kann:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

In der obigen Liste wird das erste Kennwort verwendet, das einen Bereich oder eine URL enthält, der bzw. die der Authentifizierungsanforderung des Servers entspricht. Auch wenn die Datei unter https://www.mysite.com/path1/path2/index.html ist in Realm3, zum Beispiel name2 password2 und verwendet werden, weil das Kennwort, das mit der URL definiert ist, über dem mit dem Bereich definiert wird.

Hinzufügen von Kennwörtern für den Zugriff auf Bereiche Ihrer Website, für die eine Authentifizierung erforderlich ist

Sie können Passwords verwenden, um kennwortgeschützte Bereiche Ihrer Website für Crawling- und Indexierungszwecke aufzurufen.

Bevor die Auswirkungen Ihres Passworts für Kunden sichtbar sind, stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

So fügen Sie Kennwörter für den Zugriff auf Bereiche Ihrer Website hinzu, für die eine Authentifizierung erforderlich ist

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Passwords.

  2. Geben Sie auf der Passwords Seite in das Passwords Feld einen Bereich oder eine URL sowie den zugehörigen Benutzernamen und das Kennwort ein, jeweils durch ein Leerzeichen getrennt.

    Beispiel eines Realm-Kennworts und eines URL-Kennworts in separaten Zeilen:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    Fügen Sie nur ein Kennwort pro Zeile hinzu.

  3. Klicken Save Changes.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Inhaltstypen

Sie können festlegen, welche Dateitypen für dieses Konto durchsucht und indexiert werden Content Types sollen.

Zu den Inhaltstypen, die Sie durchsuchen und indizieren können, zählen PDF-Dokumente, Dokumente, Adobe Flash-Filme, Dateien aus Microsoft Office-Anwendungen wie Word, Excel und Powerpoint sowie Text in MP3-Dateien. Der in den ausgewählten Inhaltstypen gefundene Text wird zusammen mit dem gesamten anderen Text auf Ihrer Website durchsucht.

Bevor die Auswirkungen der Einstellungen für Inhaltstypen für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Informationen zum Indexieren von MP3-Musikdateien

Wenn Sie die Option Text in MP3 Music Files auf der Content Types Seite auswählen, wird eine MP3-Datei auf zwei Arten durchsucht und indiziert. Der erste und häufigste Weg ist der von einem Anker-href-Tag in einer HTML-Datei, wie im Folgenden:

<a href="MP3-file-URL"></a>

Die zweite Möglichkeit ist, die URL der MP3-Datei als URL-Einstiegspunkt einzugeben.

Siehe Informationen zu URL-Einträgen.

Eine MP3-Datei wird vom MIME-Typ "audio/mpeg"erkannt.

Beachten Sie, dass MP3-Musikdateien ziemlich groß sein können, obwohl sie normalerweise nur eine kleine Textmenge enthalten. Zum Beispiel können MP3-Dateien optional Elemente wie den Albumnamen, den Künstlernamen, den Titel des Liedes, das Musikgenre, das Jahr der Veröffentlichung und einen Kommentar speichern. Diese Informationen werden am Ende der Datei im so genannten TAG gespeichert. MP3-Dateien mit TAG-Informationen werden wie folgt indiziert:

  • Der Titel des Liedes wird wie der Titel einer HTML-Seite behandelt.
  • Der Kommentar wird wie eine Beschreibung behandelt, die für eine HTML-Seite definiert ist.
  • Das Genre wird wie ein für eine HTML-Seite definierter Suchbegriff behandelt.
  • Der Name des Künstlers, der Name des Albums und das Jahr der Veröffentlichung werden wie der Text einer HTML-Seite behandelt.

Beachten Sie, dass jede MP3-Datei, die auf Ihrer Website durchsucht und indiziert ist, als eine Seite gezählt wird.

Wenn Ihre Website viele große MP3-Dateien enthält, können Sie die Indexierungsbyte-Grenze für Ihr Konto überschreiten. In diesem Fall können Sie die Auswahl Text in MP3 Music Files auf der Content Types Seite aufheben, um die Indizierung aller MP3-Dateien auf Ihrer Website zu verhindern.

Wenn Sie nur die Indizierung bestimmter MP3-Dateien auf Ihrer Website verhindern möchten, haben Sie folgende Möglichkeiten:

  • Umschließen Sie die Anker-Tags, die mit den MP3-Dateien mit <nofollow> und </nofollow> -Tags verknüpft sind. Der Suchroboter folgt nicht den Verknüpfungen zwischen diesen Tags.

  • hinzufügen die URLs der MP3-Dateien als Ausschlussmasken.

    Siehe URL-Masken.

Auswählen von Inhaltstypen zum Durchsuchen und Indexieren

Sie können festlegen, welche Dateitypen für dieses Konto durchsucht und indexiert werden Content Types sollen.

Zu den Inhaltstypen, die Sie durchsuchen und indizieren können, zählen PDF-Dokumente, Dokumente, Adobe Flash-Filme, Dateien aus Microsoft Office-Anwendungen wie Word, Excel und Powerpoint sowie Text in MP3-Dateien. Der in den ausgewählten Inhaltstypen gefundene Text wird zusammen mit dem gesamten anderen Text auf Ihrer Website durchsucht.

Bevor die Auswirkungen der Einstellungen für Inhaltstypen für Kunden sichtbar sind, müssen Sie Ihren Site-Index neu erstellen.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

Gehen Sie wie folgt vor, um chinesische, japanische oder koreanische MP3-Dateien zu crawlen und zu indizieren. Geben Sie dann unter Settings > Metadata Injections> den Zeichensatz an, der zum Kodieren der MP3-Dateien verwendet wird.

Siehe Info zu Injektionen.

So wählen Sie Inhaltstypen zum Durchsuchen und Indexieren aus

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Content Types.

  2. Überprüfen Sie auf der Content Types Seite die Dateitypen, die Sie auf Ihrer Website durchsuchen und indizieren möchten.

  3. Klicken Save Changes.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Verbindungen

Sie können Verbindungen verwenden, um bis zu zehn HTTP-Verbindungen hinzuzufügen, die der Suchroboter zur Indexierung Ihrer Website verwendet.

Eine Erhöhung der Anzahl der Verbindungen kann die Zeit, die zum Abschluss eines Crawls und eines Indexes benötigt wird, erheblich verkürzen. Beachten Sie jedoch, dass jede zusätzliche Verbindung die Belastung Ihres Servers erhöht.

Hinzufügen von Verbindungen zur Erhöhung der Indexierungsgeschwindigkeit

Sie können die Indexierung Ihrer Website verkürzen, indem Sie Connections verwenden, um die Anzahl der gleichzeitigen HTTP-Verbindungen zu erhöhen, die der Crawler verwendet. Sie können bis zu zehn Verbindungen hinzufügen.

Beachten Sie, dass jede zusätzliche Verbindung die auf Ihrem Server abgelegte Last erhöht.

So fügen Sie Verbindungen hinzu, um die Indexgeschwindigkeit zu erhöhen

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Connections.

  2. Geben Sie auf der Parallel Indexing Connections Seite im Number of Connections Feld die Anzahl der Verbindungen (1-10) ein, die Sie hinzufügen möchten.

  3. Klicken Save Changes.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Grundlagen zur Formularübermittlung

Mit der Funktion "Formularübermittlung"können Sie Formulare auf Ihrer Website erkennen und verarbeiten.

Während des Crawling und der Indexierung Ihrer Website wird jedes gefundene Formular mit den von Ihnen hinzugefügten Formulardefinitionen verglichen. Entspricht ein Formular einer Formulardefinition, wird das Formular zur Indexierung gesendet. Entspricht ein Formular mehr als einer Definition, wird das Formular einmal für jede übereinstimmende Definition gesendet.

Hinzufügen von Formulardefinitionen zum Indizieren von Formularen auf Ihrer Website

Sie können Formulare, die auf Ihrer Website erkannt werden, Form Submission für Indizierungszwecke verarbeiten.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer Änderungen für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

So fügen Sie Formulardefinitionen für die Indexierung von Formularen auf Ihrer Website hinzu

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Form Submission.

  2. Klicken Sie auf der Form Submission Seite auf Add New Form.

  3. Legen Sie auf der Add Form Definition Seite die Optionen Form Recognition und Form Submission fest.

    Die fünf Optionen im Form Recognition Abschnitt auf der Form Definition Seite werden verwendet, um Formulare auf Ihren Webseiten zu identifizieren, die verarbeitet werden können.

    Die drei Optionen im Form Submission Abschnitt dienen zur Angabe der Parameter und Werte, die mit einem Formular an Ihren Webserver gesendet werden.

    Geben Sie einen Erkennungs- oder Sendeparameter pro Zeile ein. Jeder Parameter muss einen Namen und einen Wert enthalten.

    Option

    Beschreibung

    Formularerkennung

    Seiten-URL-Maske

    Identifizieren Sie die Webseite oder Seiten, die das Formular enthalten. Um ein Formular zu identifizieren, das auf einer einzelnen Seite angezeigt wird, geben Sie die URL für diese Seite wie im folgenden Beispiel ein:

    https://www.mydomain.com/login.html

    Um Formulare zu identifizieren, die auf mehreren Seiten angezeigt werden, geben Sie eine URL-Maske an, die zur Beschreibung der Seiten Platzhalter verwendet. Zur Identifizierung von Formularen, die auf einer ASP-Seite gefunden werden, geben Sie https://www.mydomain.com/register/ beispielsweise Folgendes an:

    https://www.mydomain.com/register/*.asp&nbsp;

    Sie können auch einen regulären Ausdruck verwenden, um mehrere Seiten zu identifizieren. Geben Sie einfach den regexp Suchbegriff vor der URL-Maske an, wie im folgenden Beispiel:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    URL-Maske der Aktion

    Identifiziert das Aktionsattribut des <form> Tags.

    Wie bei der URL-Maske der Seite kann die Maske der AktionsURL in Form einer einzelnen URL, einer URL mit Platzhaltern oder eines regulären Ausdrucks dargestellt werden.

    Bei der URL-Maske kann es sich um eine der folgenden Optionen handeln:

    • Ein vollständiger Pfad, wie im Folgenden gezeigt: https://www.mydomain.com/products.html
    • Ein partieller Pfad wie im Folgenden: https://www.mydomain.com/products
    • Eine URL, die Platzhalter wie folgt verwendet: https://www.mydomain.com/*.html
    • Ein regulärer Ausdruck wie im Folgenden: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    Wenn Sie den Text nicht auf Seiten indizieren möchten, die durch eine URL-Maske oder eine Action-URL-Maske identifiziert werden, oder wenn Sie nicht möchten, dass auf diesen Seiten Links folgen, können Sie die noindex und die nofollow Suchbegriffe verwenden. Sie können diese Suchbegriffe mithilfe von URL-Masken oder Einstiegspunkten zu Ihren Masken hinzufügen.

    Siehe Informationen zu URL-Einträgen .

    Siehe Informationen zu URL-Masken .

    Formularnamenmaske

    Identifiziert Formulare, wenn die <form> Tags auf Ihren Webseiten ein Namensattribut enthalten.

    Sie können einen einfachen Namen ( login_form ), einen Namen mit einem Platzhalter ( form* ) oder einen regulären Ausdruck ( regexp ^.*authorize.*$ ) verwenden.

    Normalerweise können Sie dieses Feld leer lassen, da Formulare in der Regel kein Namensattribut aufweisen.

    Formular-ID-Maske

    Identifiziert Formulare, wenn die <form> Tags auf Ihren Webseiten ein id-Attribut enthalten.

    Sie können einen einfachen Namen ( login_form ), einen Namen mit einem Platzhalter ( form* ) oder einen regulären Ausdruck ( regexp ^.*authorize.*$ ) verwenden.

    Normalerweise können Sie dieses Feld leer lassen, da Formulare in der Regel kein Namensattribut aufweisen.

    Parameter

    Identifizieren Sie Formulare, die einen benannten Parameter oder einen benannten Parameter mit einem bestimmten Wert enthalten oder nicht enthalten.

    Um beispielsweise ein Formular zu identifizieren, das einen E-Mail-Parameter enthält, der auf rick_brough@mydomain.com, einen Kennwortparameter, aber keinen Vorname-Parameter vorgegeben ist, geben Sie die folgenden Parametereinstellungen pro Zeile an:

    email=rick_brough@mydomain.com password not first-name

    Formularübermittlung

    URL der Aktion überschreiben

    Geben Sie an, wann die Zielgruppe der Formularübermittlung von der im Aktionsattribut des Formulars angegebenen abweicht.

    Sie können diese Option beispielsweise verwenden, wenn das Formular über eine JavaScript-Funktion gesendet wird, die einen URL-Wert erstellt, der sich von dem im Formular enthaltenen Wert unterscheidet.

    Methode überschreiben

    Geben Sie an, ob sich die Zielgruppe der Formularübermittlung von der im Aktionsattribut des Formulars verwendeten unterscheidet und wann das Senden-JavaScript die Methode geändert hat.

    Die Standardwerte für alle Formularparameter ( <input> Tags, einschließlich ausgeblendeter Felder), die Standardwerte <option> eines <select> -Tags und der Standardtext zwischen <textarea>...</textarea> Tags) werden von der Webseite gelesen. Jeder Parameter, der im Abschnitt " Formularübermittlung" im Feld " Parameter"aufgelistet ist, wird jedoch durch die Standardformulare ersetzt.

    Parameter

    Sie können Formularübermittlungsparameter mit dem not Suchbegriff als Präfix voranstellen.

    Wenn Sie einem Parameter das Präfix voranstellen, not wird er nicht als Teil der Formularübermittlung gesendet. Dieses Verhalten ist nützlich für Kontrollkästchen, die deaktiviert gesendet werden sollen.

    Angenommen, Sie möchten die folgenden Parameter senden:

    • Der E-Mail-Parameter mit dem Wert nobody@mydomain.com
    • Der Parameter password mit dem Wert tryme
    • Der Parameter "mycheckbox"ist deaktiviert.
    • Alle anderen <form> Parameter als Standardwerte

    Der Parameter für die Formularübermittlung würde wie folgt aussehen:

    email=nobody@mydomain.com password=tryme not mycheckbox

    Das Methodenattribut des <form> -Tags auf der Webseite wird verwendet, um zu entscheiden, ob die Daten mit der GET oder der POST an Ihren Server gesendet werden.

    Enthält das <form> -Tag kein Methodenattribut, wird das Formular mit der GET gesendet.

  4. Klicken Add.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Bearbeiten einer Formulardefinition

Sie können eine vorhandene Formulardefinition bearbeiten, wenn sich ein Formular auf Ihrer Website geändert hat oder Sie lediglich die Definition ändern müssen.

Beachten Sie, dass es keine History Funktion auf der Form Submission Seite gibt, um Änderungen, die Sie an einer Formulardefinition vornehmen, wiederherzustellen.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer Änderungen für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

So bearbeiten Sie eine Formulardefinition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Form Submission.

  2. Klicken Sie auf der Form Submission Seite rechts neben einer Formulardefinition, die Sie aktualisieren möchten, Edit auf .

  3. Legen Sie auf der Edit Form Definition Seite die Optionen Form Recognition und Form Submission fest.

    Siehe die Tabelle der Optionen unter Hinzufügen von Formulardefinitionen zum Indizieren von Formularen auf Ihrer Website.

  4. Klicken Save Changes.

  5. (Optional) Führen Sie einen der folgenden Schritte aus:

Löschen einer Formulardefinition

Sie können eine vorhandene Formulardefinition löschen, wenn das Formular nicht mehr auf Ihrer Website vorhanden ist oder wenn Sie ein bestimmtes Formular nicht mehr verarbeiten und indizieren möchten.

Beachten Sie, dass es keine History Funktion auf der Form Submission Seite gibt, um Änderungen, die Sie an einer Formulardefinition vornehmen, wiederherzustellen.

Stellen Sie sicher, dass Sie Ihren Site-Index neu erstellen, damit die Ergebnisse Ihrer Änderungen für Ihre Kunden sichtbar sind.

Siehe Konfigurieren eines inkrementellen Indexes einer gestaffelten Website.

So löschen Sie eine Formulardefinition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Form Submission.

  2. Klicken Sie auf der Form Submission Seite rechts neben einer Formulardefinition, die Sie entfernen möchten, Delete auf .

    Achten Sie darauf, die richtige Formulardefinition zum Löschen auszuwählen. Wenn Sie im nächsten Schritt auf Delete die Schaltfläche klicken, gibt es kein Dialogfeld zum Löschen.

  3. Klicken Sie auf der Delete Form Definition Seite auf Delete.

  4. (Optional) Führen Sie einen der folgenden Schritte aus:

Info zu Index Connector

Verwenden Sie Index Connector zum Definieren zusätzlicher Eingabequellen für die Indizierung von XML-Seiten oder beliebigen Feeds.

Sie können eine Data Feed-Eingabequelle verwenden, um auf Inhalte zuzugreifen, die in einem Formular gespeichert sind, das sich von dem unterscheidet, was normalerweise auf einer Website mithilfe einer der verfügbaren Crawl-Methoden entdeckt wird. Jedes durchgekrackte und indizierte Dokument entspricht einer Inhaltsseite auf Ihrer Website. Ein Datenfeed stammt jedoch entweder aus einem XML-Dokument oder aus einer kommagetrennten oder tabulatorgetrennten Textdatei und enthält die zu indexierenden Inhaltsinformationen.

Eine XML-Datenquelle besteht aus XML-Stanza oder -Datensätzen, die Informationen enthalten, die den einzelnen Dokumenten entsprechen. Diese Dokumente werden dem Index hinzugefügt. Ein Textdaten-Feed enthält einzelne, durch Zeilenumbrüche getrennte Datensätze, die den einzelnen Dokumenten entsprechen. Diese einzelnen Dokumente werden ebenfalls dem Index hinzugefügt. In beiden Fällen beschreibt eine Indexverbindungskonfiguration die Interpretation des Feeds. Jede Konfiguration beschreibt, wo sich die Datei befindet und wie die Server darauf zugreifen. Die Konfiguration beschreibt auch "Zuordnungsinformationen". Das heißt, wie die Elemente der einzelnen Datensätze zum Füllen der Metadatenfelder im resultierenden Index verwendet werden.

Nachdem Sie der Staged Index Connector Definitions Seite eine Index-Connector-Definition hinzugefügt haben, können Sie alle Konfigurationseinstellungen ändern, mit Ausnahme der Werte für Name oder Typ.

Die Index Connector Seite enthält folgende Informationen:

  • Der Name der definierten Index-Connectors, die Sie konfiguriert und hinzugefügt haben.

  • Einer der folgenden Datenquellentypen für jeden Connector, den Sie hinzugefügt haben:

    • Text : Einfache "flache"Dateien, kommagetrennte, tabulatorgetrennte oder andere konsistent getrennte Formate.
    • Feed - XML-Feeds.
    • XML - Sammlungen von XML-Dokumenten
  • Ob der Connector für das nächste Crawl und Indizierung aktiviert ist oder nicht.

  • Die Adresse der Datenquelle.

Siehe auch Info zu Index Connector

Funktionsweise des Indexierungsvorgangs bei Text- und Feed-Konfigurationen in Index Connector

Schritt

Prozess

Beschreibung

1

Laden Sie die Datenquelle herunter.

Bei Text- und Feed-Konfigurationen handelt es sich um einen einfachen Dateidownload.

2

Unterteilen Sie die heruntergeladene Datenquelle in einzelne Pseudo-Dokumente.

Bei Text entspricht jede durch Zeilenumbrüche getrennte Textzeile einem einzelnen Dokument und wird mit dem angegebenen Trennzeichen wie einem Komma oder einer Registerkarte analysiert.

Bei Feed werden die Daten jedes Dokuments mithilfe eines regulären Ausdrucks in der folgenden Form extrahiert:

<${Itemtag}>(.*?)</${Itemtag}>

Erstellen Sie mithilfe der Zuordnung auf der Index Connector-Hinzufügen- Seite eine zwischengespeicherte Kopie der Daten und erstellen Sie dann eine Liste der Links für den Crawler. Die Daten werden in einem lokalen Cache gespeichert und mit den konfigurierten Feldern gefüllt.

Die analysierten Daten werden in den lokalen Cache geschrieben.

Dieser Cache wird später gelesen, um die einfachen HTML-Dokumente zu erstellen, die der Crawler benötigt. Beispiel:

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

Das <title>- Element wird nur generiert, wenn eine Zuordnung zum Metadatenfeld "Titel"vorhanden ist. Gleichermaßen wird das <body>- Element nur generiert, wenn eine Zuordnung zum Metadatenfeld "Textkörper"vorhanden ist.

Wichtig: Die Zuweisung von Werten zum vordefinierten URL-Meta-Tag wird nicht unterstützt.

Bei allen anderen Zuordnungen werden für jedes Feld, das Daten im ursprünglichen Dokument enthält, <meta>- Tags generiert.

Die Felder für jedes Dokument werden dem Cache hinzugefügt. Für jedes Dokument, das in den Cache geschrieben wird, wird auch ein Link wie in den folgenden Beispielen generiert:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

Bei der Zuordnung der Konfiguration muss ein Feld als Primär-Schlüssel identifiziert werden. Diese Zuordnung bildet den Schlüssel, der verwendet wird, wenn Daten aus dem Cache abgerufen werden.

Der Crawler erkennt den URL- Index: Schemapräfix, das dann auf die lokal zwischengespeicherten Daten zugreifen kann.

3

Crawl Sie das zwischengespeicherte Dokument-Set.

Der Index: Links werden der ausstehenden Liste des Crawlers hinzugefügt und in der normalen Crawl-Sequenz verarbeitet.

4

Verarbeiten Sie jedes Dokument.

Der Schlüsselwert jedes Links entspricht einem Eintrag im Cache, sodass beim Durchsuchen der einzelnen Links die Daten dieses Dokuments aus dem Cache abgerufen werden. Es wird dann zu einem HTML-Bild "zusammengestellt", das verarbeitet und dem Index hinzugefügt wird.

Funktionsweise des Indexierungsvorgangs bei XML-Konfigurationen in Index Connector

Der Indexierungsprozess für die XML-Konfiguration ähnelt dem Prozess für Text- und Feed-Konfigurationen mit den folgenden geringfügigen Änderungen und Ausnahmen.

Da die Dokumente für XML-Crawls bereits in einzelne Dateien aufgeteilt sind, gelten die Schritte 1 und 2 in der obigen Tabelle nicht direkt. Wenn Sie eine URL in den Feldern Host Address und File Path auf der Index Connector Add Seite angeben, wird sie als normales HTML-Dokument heruntergeladen und verarbeitet. Es wird erwartet, dass das Download-Dokument eine Sammlung von <a href="{url}"... Links enthält, von denen jeder auf ein verarbeitetes XML-Dokument verweist. Solche Links werden in das folgende Formular konvertiert:

<a href="index:<ic_config_name>?url="{url}">

Wenn beispielsweise beim Setup der Adobe die folgenden Links zurückgegeben wurden:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

In der obigen Tabelle gilt Schritt 3 nicht und Schritt 4 wird zum Zeitpunkt des Crawling und der Indexierung abgeschlossen.

Alternativ können Sie Ihre XML-Dokumente mit anderen Dokumenten kombinieren, die beim Crawl-Prozess auf natürliche Weise entdeckt wurden. In solchen Fällen können Sie die URLs der XML-Dokumente mit Umschreibungsregeln ( Settings > Rewrite Rules > Crawl List Retrieve URL Rules) ändern, um sie an den Index Connector zu leiten.

Siehe Informationen zu URL-Regelnfür Crawl-Listen abrufen.

Angenommen, Sie haben die folgende Regel zum Umschreiben:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

Diese Regel übersetzt alle URLs, die mit einem Index-Connector-Link enden, .xml in einen Index-Connector-Link. Der Crawler erkennt und schreibt das index: URL-Schema neu. Der Download-Prozess wird über den Index Connector Apache-Server auf dem primären Server weitergeleitet. Jedes heruntergeladene Dokument wird mit demselben regulären Ausdruck geprüft, das mit Feeds verwendet wird. In diesem Fall wird das erstellte HTML-Dokument jedoch nicht im Cache gespeichert. Stattdessen wird sie direkt an den Crawler zur Indexverarbeitung übergeben.

Konfigurieren mehrerer Index Connectors

Sie können mehrere Index Connector-Konfigurationen für ein beliebiges Konto definieren. Die Konfigurationen werden automatisch zur Dropdown-Liste unter Settings > Crawl > hinzugefügt URL Entrypoints , wie in der folgenden Abbildung dargestellt:

Wenn Sie eine Konfiguration aus der Dropdown-Liste auswählen, wird der Wert am Ende der Liste der URL-Einstiegspunkte addiert.

Hinweis

Deaktivierte Index Connector-Konfigurationen werden der Dropdown-Liste hinzugefügt, Sie können sie jedoch nicht auswählen. Wenn Sie dieselbe Index Connector-Konfiguration ein zweites Mal auswählen, wird sie am Ende der Liste hinzugefügt und die vorherige Instanz wird gelöscht.

Um einen Index Connector-Einstiegspunkt für eine inkrementelle Crawl anzugeben, können Sie Einträge im folgenden Format hinzufügen:

index:<indexconnector_configuration_name>

Der Crawler verarbeitet jeden hinzugefügten Eintrag, wenn er auf der Seite Index Connectors gefunden und aktiviert ist.

Hinweis: Da die URL jedes Dokuments mit dem Index Connector-Konfigurationsnamen und dem primären Schlüssel des Dokuments erstellt wird, sollten Sie beim Durchführen inkrementeller Aktualisierungen unbedingt denselben Index Connector-Konfigurationsnamen verwenden! Auf diese Weise können zuvor indizierte Dokumente korrekt aktualisiert Adobe Search&Promote werden.

Siehe auch URL- Einstiegspunkte.

Die Verwendung von Setup-Maps beim Hinzufügen eines Index Connector

Wenn Sie einen Index Connector hinzufügen, können Sie optional mit dieser Funktion ein Beispiel Ihrer Datenquelle herunterladen Setup Maps . Die Daten werden zur Indizierung der Eignung geprüft.

Wenn Sie den Index Connector-Typ auswählen...

Die Funktion "Imagemaps einrichten"...

Text

Bestimmt den Wert des Trennzeichens, indem zuerst Registerkarten und dann vertikale Balken ( | ) und schließlich Kommas ( , ). Wenn Sie bereits vor dem Klicken auf Setup Maps einen Trennzeichenwert angegeben haben , wird dieser Wert verwendet.

Das passende Schema führt dazu, dass die Kartenfelder mit Vermutungen bei den entsprechenden Tag- und Feldwerten ausgefüllt werden. Zusätzlich wird eine Stichprobe der analysierten Daten angezeigt. Wählen Sie Kopfzeilen in erster Zeile aus, wenn Sie wissen, dass die Datei eine Kopfzeile enthält. Die Setup-Funktion verwendet diese Informationen, um die resultierenden Zuordnungseinträge besser zu identifizieren.

Feed

Lädt die Datenquelle herunter und führt eine einfache XML-Analyse durch.

Die resultierenden XPath-IDs werden in den Tag-Zeilen der Map-Tabelle und ähnliche Werte in den Feldern angezeigt. Diese Zeilen identifizieren nur die verfügbaren Daten und generieren keine komplizierteren XPath-Definitionen. Es ist jedoch weiterhin hilfreich, da es die XML-Daten beschreibt und die Werte von itemTag identifiziert.

Hinweis: Die Funktion Setup-Karten lädt die gesamte XML-Quelle herunter, um die Analyse durchzuführen. Wenn die Datei groß ist, kann dieser Vorgang zu einem Timeout führen.

Wenn diese Funktion erfolgreich ist, identifiziert sie alle möglichen XPath-Elemente, von denen viele nicht verwendet werden sollten. Achten Sie darauf, die resultierenden Map-Definitionen zu prüfen und die nicht benötigten oder gewünschten zu entfernen.

XML

Lädt die URL eines repräsentativen Dokuments herunter, nicht die primäre Link-Liste. Dieses einzelne Dokument wird mit demselben Mechanismus analysiert, der mit Feeds verwendet wird, und die Ergebnisse werden angezeigt.

Bevor Sie auf Hinzufügen klicken, um die Konfiguration zu speichern, stellen Sie sicher, dass Sie die URL wieder zum Dokument für die primäre Link-Liste wechseln.

Wichtig: Die Funktion "Einstellungskarten"funktioniert möglicherweise nicht für große XML-Datensätze, da der Dateiparser versucht, die gesamte Datei in den Speicher zu lesen. Daher kann es zu einer Speicherüberschreitung kommen. Wird dasselbe Dokument jedoch zum Zeitpunkt der Indexierung verarbeitet, wird es nicht in den Speicher gelesen. Stattdessen werden große Dokumente "unterwegs"verarbeitet und erst nicht vollständig in den Speicher gelesen.

Die Verwendung von Vorschau beim Hinzufügen eines Index Connector-Connectors

Beim Hinzufügen eines Index-Connectors können Sie optional die Funktion verwenden, Preview um die Daten zu validieren, als ob Sie sie gespeichert hätten. Es führt einen Test für die Konfiguration aus, ohne die Konfiguration im Konto zu speichern. Der Test greift auf die konfigurierte Datenquelle zu. Der Download-Cache wird jedoch an einen temporären Speicherort geschrieben. Es steht nicht im Konflikt mit dem Hauptcache-Ordner, den der Indexcrawler verwendet.

Vorschau verarbeitet nur einen Standardwert von fünf Dokumenten, wie von Acct:IndexConnector-Vorschau-Max-Dokumenten gesteuert. Die in der Vorschau angezeigten Dokumente werden im Quellformular angezeigt, da sie dem Indexierungs-Crawler präsentiert werden. Die Anzeige ähnelt der Funktion "Ansicht-Quelle"in einem Webbrowser. Sie können mithilfe von standardmäßigen Navigationslinks durch die Dokumente in der Vorschau navigieren.

XML-Konfigurationen werden von Vorschau nicht unterstützt, da diese Dokumente direkt verarbeitet und nicht in den Cache heruntergeladen werden.

Hinzufügen einer Index Connector-Definition

Jede Index Connector-Konfiguration definiert eine Datenquelle und Zuordnungen, um die für diese Quelle definierten Datenelemente mit den Metadatenfeldern im Index zu verknüpfen.

Bevor die Auswirkungen der neuen und aktivierten Definition für Kunden sichtbar sind, erstellen Sie Ihren Site-Index neu.

So fügen Sie eine Index Connector-Definition hinzu

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Stage Index Connector Definitions Seite auf Add New Index Connector.

  3. Legen Sie auf der Index Connector Add Seite die gewünschten Anschlussoptionen fest. Die verfügbaren Optionen hängen von der ausgewählten Type ab.

    Option

    Beschreibung

    Name

    Der eindeutige Name der Index Connector-Konfiguration. Sie können alphanumerische Zeichen verwenden. Die Zeichen "_"und "-"sind ebenfalls zulässig.

    Typ

    Die Quelle Ihrer Daten. Der ausgewählte Datenquellentyp wirkt sich auf die auf der Index Connector-Hinzufügen- Seite verfügbaren Optionen aus. Sie können aus den folgenden Optionen wählen:

    • Text

      Einfache Dateien mit flachem Text, kommagetrennte, tabulatorgetrennte oder andere konsistent getrennte Formate. Jede durch Zeilenumbrüche getrennte Textzeile entspricht einem einzelnen Dokument und wird mit dem angegebenen Trennzeichen analysiert.

      Sie können jeden Wert oder jede Spalte einem Metadatenfeld zuordnen, auf das die Spaltennummer verweist, beginnend mit 1 (1).

    • Feed

      Lädt ein primäres XML-Dokument herunter, das mehrere "Zeilen"mit Informationen enthält.

    • XML

      Lädt ein primäres XML-Dokument herunter, das Links ( <a> ) zu einzelnen XML-Dokumenten enthält.

    Datenquellentyp: Text

    Aktiviert

    Aktiviert die Konfiguration zu Crawl und Index. Oder Sie können die Konfiguration deaktivieren, um Crawling und Indizierung zu verhindern.

    Hinweis: Deaktivierte Index Connector-Konfigurationen werden ignoriert, wenn sie in einer Einstiegspunkt-Liste vorhanden sind.

    Host-Adresse

    Gibt die Adresse des Serverhosts an, auf dem sich Ihre Daten befinden.

    Bei Bedarf können Sie einen vollständigen URI (Uniform Resource Identifier)-Pfad zum Datenquellen-Dokument angeben, wie in den folgenden Beispielen dargestellt:

    https://www.somewhere.com/some_path/some_file.xml

    oder

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    Der URI wird in die entsprechenden Einträge für die Felder Host-Adresse, Dateipfad, Protokoll und optional Benutzername und Kennwort unterteilt.

    Gibt die IP-Adresse oder die URL-Adresse des Hostsystems an, in dem die Datenquellendatei gefunden wird.

    Dateipfad

    Gibt den Pfad zur einfachen, mit Kommas getrennten, tabulatorgetrennten oder anderen konsistent getrennten Formatdatei für flachen Text an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Inkrementeller Dateipfad

    Gibt den Pfad zur einfachen, mit Kommas getrennten, tabulatorgetrennten oder anderen konsistent getrennten Formatdatei für flachen Text an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während Inkrementeller Indexvorgänge heruntergeladen und verarbeitet. Wenn keine Datei angegeben ist, wird stattdessen die unter Dateipfad aufgelistete Datei verwendet.

    Vertikaler Dateipfad

    Gibt den Pfad zur einfachen, mit Kommas getrennten, tabulatorgetrennten oder anderen konsistent getrennten Formatdatei an, die bei einer vertikalen Aktualisierung verwendet werden soll.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während des Vorgangs Vertikale Aktualisierung heruntergeladen und verarbeitet.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    Löscht Dateipfad

    Gibt den Pfad zur einfachen Textdatei mit einem einzelnen Dokument-ID-Wert pro Zeile an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während Inkrementeller Indexvorgänge heruntergeladen und verarbeitet. Die in dieser Datei enthaltenen Werte werden verwendet, um "Löschanforderungen"zu erstellen, um zuvor indizierte Dokumente zu entfernen. Die Werte in dieser Datei müssen mit den Werten übereinstimmen, die in den Dateien "Vollständiger oder inkrementeller Dateipfad"in der Spalte " Primär-Schlüssel"gefunden wurden .

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    Protokoll

    Gibt das Protokoll an, das für den Zugriff auf die Datei verwendet wird. Sie können aus den folgenden Optionen wählen:

    • HTTP

      Bei Bedarf können Sie für den Zugriff auf den HTTP-Server die entsprechenden Authentifizierungsdaten eingeben.

    • HTTPS

      Bei Bedarf können Sie für den Zugriff auf den HTTPS-Server die entsprechenden Authentifizierungsdaten eingeben.

    • FTP

      Für den Zugriff auf den FTP-Server müssen Sie entsprechende Authentifizierungsberechtigungen eingeben.

    • SFTP

      Für den Zugriff auf den SFTP-Server müssen Sie entsprechende Authentifizierungsberechtigungen eingeben.

    • Datei

    Zeitüberschreitung

    Gibt den Timeout in Sekunden für FTP-, SFTP-, HTTP- oder HTTPS-Verbindungen an. Dieser Wert muss zwischen 30 und 300 liegen.

    Weitere Zustellversuche

    Gibt die maximale Anzahl von weiteren Zustellversuchen für fehlgeschlagene FTP-, SFTP-, HTTP- oder HTTPS-Verbindungen an. Dieser Wert muss zwischen 0 und 10 liegen.

    Der Wert Null (0) verhindert Wiederholungsversuche.

    Kodierung

    Gibt das Zeichencodierungssystem an, das in der angegebenen Datenquellendatei verwendet wird.

    Trennzeichen

    Gibt das Zeichen an, mit dem die einzelnen Felder in der angegebenen Datenquellendatei getrennt werden sollen.

    Das Komma ( , ) ist ein Beispiel für ein Trennzeichen. Das Komma dient als Feldtrennzeichen, mit dem Datenfelder in der angegebenen Datenquellendatei voneinander getrennt werden können.

    Wählen Sie Registerkarte? , um das Zeichen für die horizontale Registerkarte als Trennzeichen zu verwenden.

    Kopfzeilen in erster Zeile

    Gibt an, dass die erste Zeile in der Datenquellendatei nur Kopfzeileninformationen enthält, nicht Daten.

    Mindestanzahl von Dokumenten für die Indexierung

    Bei Festlegung auf einen positiven Wert gibt dies die Mindestanzahl der Datensätze an, die in der heruntergeladenen Datei erwartet werden. Wenn weniger Datensätze empfangen werden, wird der Indexvorgang abgebrochen.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    Hinweis: Diese Funktion wird nur bei vollständigen Indexvorgängen verwendet.

    Landkarte

    Gibt Zuordnungen von Spalten zu Metadaten mithilfe von Spaltennummern an.

    • Spalte

      Gibt eine Spaltennummer an, wobei die erste Spalte 1 (1) ist. Um neue Zuordnungszeilen für jede Spalte hinzuzufügen, klicken Sie unter Aktion auf + .

      Sie müssen nicht auf jede Spalte in der Datenquelle verweisen. Stattdessen können Sie Werte überspringen.

    • Feld

      Definiert den Wert des Namensattributs, der für jedes generierte <meta>-Tag verwendet wird.

    • Metadaten?

      Das Feld wird zu einer Dropdown-Liste, aus der Sie definierte Metadatenfelder für das aktuelle Konto auswählen können.

      Der Feldwert kann ein nicht definiertes Metadatenfeld sein, falls gewünscht. Ein nicht definiertes Metadatenfeld ist manchmal hilfreich, um Inhalte zu erstellen, die vom Filtern des Skripts verwendet werden .

      Siehe Grundlagen zum Filtern von Skripten .

      Wenn Index Connector XML-Dokumente mit mehreren Treffern in einem beliebigen Zuordnungsfeld verarbeitet, werden die Werte in einem zwischengespeicherten Dokument zu einem einzigen Wert verkettet. Standardmäßig werden diese Werte mit einem Komma-Trennzeichen kombiniert. Angenommen, der entsprechende Feldwert ist ein definiertes Metadatenfeld. Darüber hinaus ist für dieses Feld das Zulassungslisten- Attribut festgelegt. In diesem Fall wird der Liste-Trennzeichen-Wert des Felds, das erste definierte Trennzeichen, in der Verkettung verwendet.

    • Primärschlüssel?

      Nur eine Kartendefinition wird als Primärschlüssel identifiziert. Dieses Feld wird zur eindeutigen Referenz, die angezeigt wird, wenn dieses Dokument zum Index hinzugefügt wird. Dieser Wert wird in der URL des Dokuments im Index verwendet.

      Die Primär Key- Werte müssen für alle Dokumente, die von der Index Connector-Konfiguration repräsentiert werden, eindeutig sein. Alle gefundenen Duplikat werden ignoriert. Wenn Ihre Quellwerte keinen eindeutigen Dokumente für die Verwendung als Primär-Key enthalten , aber zwei oder mehr zusammengeführte können einen eindeutigen Bezeichner bilden, können Sie den Primär-Schlüssel definieren, indem Sie mehrere Spaltenwerte mit einem vertikalen Balken ("|"), der die Werte trennt, kombinieren.

    • HTML entfernen?

      Wenn diese Option aktiviert ist, werden alle in den Daten dieses Felds gefundenen HTML-Tags entfernt.

    • Aktion

      Hiermit können Sie Zeilen zur Map hinzufügen oder Zeilen aus der Map entfernen. Die Reihenfolge der Zeilen ist nicht wichtig.

    Datenquellentyp: Feed

    Aktiviert

    Aktiviert die Konfiguration zu Crawl und Index. Oder Sie können die Konfiguration deaktivieren, um Crawling und Indizierung zu verhindern.

    Hinweis: Deaktivierte Index Connector-Konfigurationen werden ignoriert, wenn sie in einer Einstiegspunkt-Liste vorhanden sind.

    Host-Adresse

    Gibt die IP-Adresse oder die URL-Adresse des Hostsystems an, in dem die Datenquellendatei gefunden wird.

    Dateipfad

    Gibt den Pfad zum primären XML-Dokument an, das mehrere "Zeilen"mit Informationen enthält.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Inkrementeller Dateipfad

    Gibt den Pfad zum inkrementellen XML-Dokument an, das mehrere "Zeilen"mit Informationen enthält.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während Inkrementeller Indexvorgänge heruntergeladen und verarbeitet. Wenn keine Datei angegeben ist, wird stattdessen die unter Dateipfad aufgelistete Datei verwendet.

    Vertikaler Dateipfad

    Gibt den Pfad zum XML-Dokument an, das mehrere wenige "Zeilen"mit Informationen enthält, die bei einer vertikalen Aktualisierung verwendet werden sollen.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während des Vorgangs Vertikale Aktualisierung heruntergeladen und verarbeitet.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    Löscht Dateipfad

    Gibt den Pfad zur einfachen Textdatei mit einem einzelnen Dokument-ID-Wert pro Zeile an.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Diese Datei wird, sofern angegeben, während Inkrementeller Indexvorgänge heruntergeladen und verarbeitet. Die in dieser Datei enthaltenen Werte werden verwendet, um "Löschanforderungen"zu erstellen, um zuvor indizierte Dokumente zu entfernen. Die Werte in dieser Datei müssen mit den Werten übereinstimmen, die in den Dateien "Vollständiger oder inkrementeller Dateipfad"in der Spalte " Primär-Schlüssel"gefunden wurden .

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    Protokoll

    Gibt das Protokoll an, das für den Zugriff auf die Datei verwendet wird. Sie können aus den folgenden Optionen wählen:

    • HTTP

      Bei Bedarf können Sie für den Zugriff auf den HTTP-Server die entsprechenden Authentifizierungsdaten eingeben.

    • HTTPS

      Bei Bedarf können Sie für den Zugriff auf den HTTPS-Server die entsprechenden Authentifizierungsdaten eingeben.

    • FTP

      Für den Zugriff auf den FTP-Server müssen Sie entsprechende Authentifizierungsberechtigungen eingeben.

    • SFTP

      Für den Zugriff auf den SFTP-Server müssen Sie entsprechende Authentifizierungsberechtigungen eingeben.

    • Datei

    itemTag

    Identifiziert das XML-Element, mit dem Sie einzelne XML-Zeilen in der angegebenen Datenquellendatei identifizieren können.

    Im folgenden Feed-Fragment eines XML-Dokuments der Adobe lautet der itemTag-Wert beispielsweise record :

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-/Google/DTD GSA Feeds/EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=de"mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=de"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=de"title" content="Adobe AIR Marketplace"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=de"description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=de"mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=de"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=de"title" content="Adobe Photoshop Marketplace"/>%20%20%20%20%20%20%20%20%20<meta name=?lang=de"description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    Mindestanzahl von Dokumenten für die Indexierung

    Bei Festlegung auf einen positiven Wert gibt dies die Mindestanzahl der Datensätze an, die in der heruntergeladenen Datei erwartet werden. Wenn weniger Datensätze empfangen werden, wird der Indexvorgang abgebrochen.

    Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    Hinweis: Diese Funktion wird nur bei vollständigen Indexvorgängen verwendet.

    Landkarte

    Ermöglicht die Angabe von Zuordnungen von XML-Elementen zu Metadaten mithilfe von XPath-Ausdrücken.

    • Tag

      Gibt eine XPath-Darstellung der analysierten XML-Daten an. Anhand des obigen XML-Dokuments für die Adobe könnte es unter der Option itemTag mithilfe der folgenden Syntax zugeordnet werden:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      Die obige Syntax übersetzt sich wie folgt:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        Das displayURL- Attribut des record- Elements wird dem Metadatenfeld "page-url"zugeordnet .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        Das content- Attribut eines Metaelements, das in einem Metadatenelement enthalten ist, das in einem record- Element enthalten ist, dessen Namensattribut title ist, wird dem Metadatenfeld-Titel zugeordnet.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        Das content- Attribut eines Metaelements, das in einem Metadatenelement enthalten ist, das im record- Element enthalten ist, dessen Namensattribut description lautet, ordnet das Metadatenfeld dem desc-zu.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        Das content- Attribut eines meta- Elements, das in einem metadata- Element enthalten ist, das im record- Element enthalten ist, dessen name-Attribut description ist, wird dem MetadatenfeldTextkörper zugeordnet.

      XPath ist eine relativ komplizierte Notation. Weitere Informationen finden Sie unter:

      Siehe https://www.w3schools.com/xpath/

    • Feld

      Definiert den Wert des Namensattributs, der für jedes generierte <meta>- Tag verwendet wird.

    • Metadaten?

      Das Feld wird zu einer Dropdown-Liste, aus der Sie definierte Metadatenfelder für das aktuelle Konto auswählen können.

      Der Feldwert kann ein nicht definiertes Metadatenfeld sein, falls gewünscht. Ein nicht definiertes Metadatenfeld ist manchmal hilfreich, um Inhalte zu erstellen, die vom Filtern des Skripts verwendet werden .

      Siehe Grundlagen zum Filtern von Skripten .

      Wenn Index Connector XML-Dokumente mit mehreren Treffern in einem beliebigen Zuordnungsfeld verarbeitet, werden die Werte in einem zwischengespeicherten Dokument zu einem einzigen Wert verkettet. Standardmäßig werden diese Werte mit einem Komma-Trennzeichen kombiniert. Angenommen, der entsprechende Feldwert ist ein definiertes Metadatenfeld. Darüber hinaus ist für dieses Feld das Zulassungslisten- Attribut festgelegt. In diesem Fall wird der Liste-Trennzeichen-Wert des Felds, das erste definierte Trennzeichen, in der Verkettung verwendet.

    • Primärschlüssel?

      Nur eine Kartendefinition wird als Primärschlüssel identifiziert. Dieses Feld wird zur eindeutigen Referenz, die angezeigt wird, wenn dieses Dokument zum Index hinzugefügt wird. Dieser Wert wird in der URL des Dokuments im Index verwendet.

      Die Primär Key- Werte müssen für alle Dokumente, die von der Index Connector-Konfiguration repräsentiert werden, eindeutig sein. Alle gefundenen Duplikat werden ignoriert. Wenn Ihre Quellwerte keinen eindeutigen Dokumente für die Verwendung als Primär-Key enthalten , aber zwei oder mehr zusammengeführte können einen eindeutigen Bezeichner bilden, können Sie den Primär-Schlüssel definieren, indem Sie mehrere Tag- Definitionen mit einem vertikalen Balken ("|"), der die Werte trennt, kombinieren.

    • HTML entfernen?

      Wenn diese Option aktiviert ist, werden alle in den Daten dieses Felds gefundenen HTML-Tags entfernt.

    • Für Löschen verwenden?

      Wird nur bei Inkrementellen Indexvorgängen verwendet. Datensätze, die diesem XPath-Muster entsprechen, identifizieren Elemente zum Löschen. Der Primär Key- Wert für jeden dieser Datensätze wird verwendet, um "delete"-Anforderungen zu erstellen, wie beim Löschen des Dateipfads.

      Hinweis: Diese Funktion ist standardmäßig nicht aktiviert. Wenden Sie sich an den technischen Support, um die Funktion für Ihre Verwendung zu aktivieren.

    • Aktion

      Hiermit können Sie Zeilen zur Map hinzufügen oder Zeilen aus der Map entfernen. Die Reihenfolge der Zeilen ist nicht wichtig.

    Datenquellentyp: XML

    Aktiviert

    Aktiviert die Konfiguration zu Crawl und Index. Oder Sie können die Konfiguration deaktivieren, um Crawling und Indizierung zu verhindern.

    Hinweis: Deaktivierte Index Connector-Konfigurationen werden ignoriert, wenn sie in einer Einstiegspunkt-Liste vorhanden sind.

    Host-Adresse

    Gibt die URL-Adresse des Hostsystems an, in dem die Datenquellendatei gefunden wird.

    Dateipfad

    Gibt den Pfad zum primären XML-Dokument an, das Links ( <a> ) zu einzelnen XML-Dokumenten enthält.

    Der Pfad ist relativ zum Stammverzeichnis der Hostadresse.

    Protokoll

    Gibt das Protokoll an, das für den Zugriff auf die Datei verwendet wird. Sie können aus den folgenden Optionen wählen:

    • HTTP

      Bei Bedarf können Sie für den Zugriff auf den HTTP-Server die entsprechenden Authentifizierungsdaten eingeben.

    • HTTPS

      Bei Bedarf können Sie für den Zugriff auf den HTTPS-Server die entsprechenden Authentifizierungsdaten eingeben.

    • FTP

      Für den Zugriff auf den FTP-Server müssen Sie entsprechende Authentifizierungsberechtigungen eingeben.

    • SFTP

      Für den Zugriff auf den SFTP-Server müssen Sie entsprechende Authentifizierungsberechtigungen eingeben.

    • Datei

    Hinweis: Die Einstellung "Protokoll"wird nur verwendet, wenn in den Feldern "Host-Adresse"und/oder "Dateipfad"Informationen angegeben sind. Die einzelnen XML-Dokumente werden gemäß den jeweiligen URL-Spezifikationen entweder über HTTP oder HTTPS heruntergeladen.

    itemTag

    Identifiziert das XML-Element, das eine "Zeile"in der von Ihnen angegebenen Datenquellendatei definiert.

    Landkarte

    Hiermit können Sie Zuordnungen von Spalten zu Metadaten mithilfe von Spaltennummern festlegen.

    • Tag

      Gibt eine XPath-Darstellung der analysierten XML-Daten an. Mithilfe des obigen XML-Dokuments für die Beispielsyntax unter der Option itemTag können Sie es mithilfe der folgenden Syntax zuordnen:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      Die obige Syntax übersetzt sich wie folgt:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        Das displayURL- Attribut des record- Elements wird dem Metadatenfeld "page-url"zugeordnet .

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        Das content- Attribut eines Metaelements, das in einem Metadatenelement enthalten ist, das in einem record- Element enthalten ist, dessen Namensattribut title ist, wird dem Metadatenfeld-Titel zugeordnet.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        Das content- Attribut eines Metaelements, das in einem Metadatenelement enthalten ist, das im record- Element enthalten ist, dessen Namensattribut description lautet, ordnet das Metadatenfeld dem desc-zu.

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        Das content- Attribut eines meta- Elements, das in einem metadata- Element enthalten ist, das im record- Element enthalten ist, dessen name-Attribut description ist, wird dem MetadatenfeldTextkörper zugeordnet.

      XPath ist eine relativ komplizierte Notation. Weitere Informationen finden Sie unter:

      Siehe https://www.w3schools.com/xpath/

    • Feld

      Definiert den Wert des Namensattributs, der für jedes generierte <meta>-Tag verwendet wird.

    • Metadaten?

      Das Feld wird zu einer Dropdown-Liste, aus der Sie definierte Metadatenfelder für das aktuelle Konto auswählen können.

      Der Feldwert kann ein nicht definiertes Metadatenfeld sein, falls gewünscht. Ein nicht definiertes Metadatenfeld ist manchmal hilfreich, um Inhalte zu erstellen, die vom Filtern des Skripts verwendet werden .

      Siehe Grundlagen zum Filtern von Skripten .

      Wenn Index Connector XML-Dokumente mit mehreren Treffern in einem beliebigen Zuordnungsfeld verarbeitet, werden die Werte in einem zwischengespeicherten Dokument zu einem einzigen Wert verkettet. Standardmäßig werden diese Werte mit einem Komma-Trennzeichen kombiniert. Angenommen, der entsprechende Feldwert ist ein definiertes Metadatenfeld. Darüber hinaus ist für dieses Feld das Zulassungslisten- Attribut festgelegt. In diesem Fall wird der Liste-Trennzeichen-Wert des Felds, das erste definierte Trennzeichen, in der Verkettung verwendet.

    • Primärschlüssel?

      Nur eine Kartendefinition wird als Primärschlüssel identifiziert. Dieses Feld wird zur eindeutigen Referenz, die angezeigt wird, wenn dieses Dokument zum Index hinzugefügt wird. Dieser Wert wird in der URL des Dokuments im Index verwendet.

      Die Primär Key- Werte müssen für alle Dokumente, die von der Index Connector-Konfiguration repräsentiert werden, eindeutig sein. Alle gefundenen Duplikat werden ignoriert. Wenn Ihre Quellwerte keinen eindeutigen Dokumente für die Verwendung als Primär-Key enthalten , aber zwei oder mehr zusammengeführte können einen eindeutigen Bezeichner bilden, können Sie den Primär-Schlüssel definieren, indem Sie mehrere Tag- Definitionen mit einem vertikalen Balken ("|"), der die Werte trennt, kombinieren.

    • HTML entfernen?

      Wenn diese Option aktiviert ist, werden alle in den Daten dieses Felds gefundenen HTML-Tags entfernt.

    • Aktion

      Hiermit können Sie Zeilen zur Map hinzufügen oder Zeilen aus der Map entfernen. Die Reihenfolge der Zeilen ist nicht wichtig.

  4. (Optional) Klicken Sie auf Setup Maps , um ein Beispiel Ihrer Datenquelle herunterzuladen. Die Daten werden zur Indizierung der Eignung geprüft. Diese Funktion ist nur für Text- und Feed-Typen verfügbar.

  5. (Optional) Klicken Sie Preview auf , um die eigentliche Funktionsweise der Konfiguration zu testen. Diese Funktion ist nur für Text- und Feed-Typen verfügbar.

  6. Klicken Sie auf , Add um die Konfiguration der Index Connector Definitions Seite und der Index Connector Configurations Dropdown-Liste auf der URL Entrypoints Seite hinzuzufügen.

    Siehe Informationen zu URL-Einträgen.

  7. Klicken Sie auf der Index Connector Definitions Seite auf rebuild your staged site index.

  8. (Optional) Führen Sie auf der Index Connector Definitions Seite einen der folgenden Schritte aus:

Bearbeiten einer Index Connector-Definition

Sie können einen von Ihnen definierten Index Connector bearbeiten.

Hinweis

Es stehen nicht alle Optionen zur Verfügung, die Sie ändern können, z. B. den Index-Connector-Namen oder den Typ aus der Type Dropdown-Liste.

So bearbeiten Sie eine Index Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Index Connector Seite unter der Actions Spaltenüberschrift auf Edit einen Index Connector-Definitionsnamen, dessen Einstellungen Sie ändern möchten.

  3. Legen Sie auf der Index Connector Edit Seite die gewünschten Optionen fest.

    Siehe Tabelle der Optionen unter Hinzufügen einer Index-Connector-Definition.

  4. Klicken Save Changes.

  5. (Optional) Klicken Sie auf der Index Connector Definitions Seite auf rebuild your staged site index.

  6. (Optional) Führen Sie auf der Index Connector Definitions Seite einen der folgenden Schritte aus:

Anzeigen der Einstellungen einer Index Connector-Definition

Sie können die Konfigurationseinstellungen einer vorhandenen Indexverbindungsdefinition überprüfen.

Nachdem der Seite eine Index-Connector-Definition hinzugefügt wurde, können Sie deren Typeinstellung nicht mehr ändern. Index Connector Definitions Stattdessen müssen Sie die Definition löschen und dann eine neue hinzufügen.

So Ansicht der Einstellungen einer Index Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.
  2. Klicken Sie auf der Index Connector Seite unter der Actions Spaltenüberschrift auf Edit einen Index Connector-Definitionsnamen, dessen Einstellungen Sie überprüfen oder bearbeiten möchten.

Kopieren einer Index Connector-Definition

Sie können eine vorhandene Index Connector-Definition kopieren, um sie als Grundlage für einen neuen Index Connector zu verwenden, den Sie erstellen möchten.

Beim Kopieren einer Index Connector-Definition ist die kopierte Definition standardmäßig deaktiviert. Um die Definition zu aktivieren oder zu aktivieren, müssen Sie sie auf der Index Connector Edit Seite bearbeiten und dann auswählen Enable.

Siehe Bearbeiten einer Index Connector-Definition.

So kopieren Sie eine Index Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Index Connector Seite unter der Actions Spaltenüberschrift auf Copy einen Index Connector-Definitionsnamen, dessen Einstellungen Sie Duplikat haben möchten.

  3. Geben Sie auf der Index Connector Copy Seite den neuen Namen der Definition ein.

  4. Klicken Copy.

  5. (Optional) Führen Sie auf der Index Connector Definitions Seite einen der folgenden Schritte aus:

Umbenennen einer Index Connector-Definition

Sie können den Namen einer vorhandenen Index Connector-Definition ändern.

Nachdem Sie die Definition umbenannt haben, wählen Sie Settings > Crawling > URL Entrypoints. Sie möchten sicherstellen, dass der neue Definitionsname in der Dropdown-Liste auf der URL Entrypoints Seite angezeigt wird.

Siehe Hinzufügen mehrerer URL-Einstiegspunkte, die indiziertwerden sollen.

So benennen Sie eine Index Connector-Definition um

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.

  2. Klicken Sie auf der Index Connector Seite unter der Actions Spaltenüberschrift auf Rename den Namen der Index Connector-Definition, den Sie ändern möchten.

  3. Geben Sie auf der Index Connector Rename Seite den neuen Namen der Definition in das Name Feld ein.

  4. Klicken Rename.

  5. Klicken Sie auf Settings > Crawling > URL Entrypoints. Wenn der Name des vorherigen Index-Connectors in der Liste vorhanden ist, entfernen Sie ihn und fügen Sie den neu umbenannten Eintrag hinzu.

    Siehe Hinzufügen mehrerer URL-Einstiegspunkte, die indiziertwerden sollen. 1. (Optional) Führen Sie auf der Index Connector Definitions Seite einen der folgenden Schritte aus:

Löschen einer Index Connector-Definition

Sie können eine vorhandene Index Connector-Definition löschen, die Sie nicht mehr benötigen oder verwenden.

So löschen Sie eine Index Connector-Definition

  1. Klicken Sie im Produktmenü auf Settings > Crawling > Index Connector.
  2. Klicken Sie auf der Index Connector Definitions Seite unter der Actions Spaltenüberschrift auf Delete den Namen der Index Connector-Definition, den Sie entfernen möchten.
  3. Klicken Sie auf der Index Connector Delete Seite auf Delete.

Auf dieser Seite