关于爬网菜单

使用搜索菜单集日期和URL蒙版、密码、内容类型、连接、表单定义和URL入口点。

关于URL入口点

大多数网站有一个客户最初访问的主要入口点或主页。 此主入口点是搜索自动机开始索引搜索的URL地址。 但是,如果您的网站有多个域或子域,或者您的站点的某些部分没有从主入口点链接,则可以使用URL入口点添加更多入口点。

将索引每个指定URL入口点下的所有网页。 您可以将URL入口点与蒙版组合,以准确控制要索引的网站的哪些部分。 在客户看到URL入口点设置的效果之前,必须重新构建网站索引。

主要入口点通常是要索引和搜索的网站的URL。 您可以在帐户设置中配置此主入口点。

请参阅配置帐户设置

在指定主URL入口点后,您可以根据需要指定要按顺序爬网的其他入口点。 通常,您会为未从主入口点下的页面链接的网页指定其他入口点。 如下例所示,当您的网站跨越多个域时指定其他入口点:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

您可以在下表中使用一个或多个以空格分隔的关键字限定每个入口点。 这些关键字影响页面的索引方式。

重要说明:请务必将给定关键字与入口点分开,并用空格隔开;逗号不是有效的分隔符。

关键词

描述

noindex

如果不想在入口点页面上为文本编制索引,但想要跟踪页面链接,请添加 noindex

将关键字与入口点分隔,并带有空格,如下例所示:

https://www.my-additional-domain.com/more_pages/main.html noindex

此关键字等同于带有 content="noindex" ) <head> ... 入口点页面的 </head> 标记。

nofollow

如果要为入口点页面中的文本编制索引,但不希望跟踪该页面的任何链接,请添加 nofollow

将关键字与入口点分隔,并带有空格,如下例所示:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

此关键字等同于带有 content="nofollow" <head> ... 入口点页面的 </head> 标记。

表单

当入口点为登录页面时, form 通常用于搜索机器人提交登录表单并在搜索网站之前接收相应的cookie。 当使用“form”关键字时,入口点页面不会索引,搜索机器人不会将入口点页面标记为已爬网。 使用 nofollow ,如果您不希望搜索机器人跟踪页面链接。

另请参阅关于内容类型

另请参阅关于索引连接器

添加要索引的多个URL入口点

如果您的网站有多个域或子域,并且您希望对它们进行爬网,则可以使用URL入口点添加更多URL。

要设置网站的主要URL入口点,请使用“帐户设置”。

请参阅配置帐户设置

要添加要索引的多个URL入口点

  1. 在产品菜单上,单击​Settings > Crawling > URL Entrypoints

  2. 在URL Entrypoints页面的Entrypoints字段中,每行输入一个URL地址。

  3. (可选)在​Add Index Connector Configurations​下拉列表中,选择要添加为索引入口点的索引连接器。

    下拉列表仅在您之前添加了一个或多个索引连接器定义时才可用。

    请参阅添加索引连接器定义

  4. 单击 Save Changes.

  5. (可选)执行下列任一操作:

关于URL蒙版

URL蒙版是一种模式,用于确定哪些网站文档搜索自动机索引或不索引。

请确保重新构建网站索引,以便您的客户能够看到URL蒙版的结果。

请参阅配置分阶段网站的增量索引

以下是两种可以使用的URL蒙版:

  • 包括URL蒙版
  • 排除URL蒙版

包含URL蒙版可让搜索自动机对与蒙版图案匹配的任何文档进行索引。

排除URL蒙版会指示搜索自动机为匹配文档建立索引。

当搜索自动机从链接穿越您的网站时,它会遇到URL并查找与这些URL匹配的蒙版。 第一个匹配项确定是将该URL包含在索引中还是从索引中排除。 如果没有蒙版与遇到的URL匹配,则该URL将从索引中丢弃。

系统会自动生成入口点URL的包含URL蒙版。 此行为可确保对您网站上遇到的所有文档进行索引。 它还可以方便地删除“离开”您网站的链接。 例如,如果索引页面链接到https://www.yahoo.com,则搜索自动机不会对该URL进行索引,因为它与由入口点URL自动生成的包含蒙版不匹配。

您指定的每个URL掩码都必须位于单独的行上。

蒙版可以指定以下任一选项:

  • https://www.mydomain.com/products.html中所示的完整路径。

  • 部分路径,如https://www.mydomain.com/products中所示。

  • 使用通配符的URL,如https://www.mydomain.com/*.html中所示。

  • 常规表达式(适用于高级用户)。

    要使蒙版成为常规表达式,请在蒙版类型(excludeinclude)和URL蒙版之间插入关键字regexp

以下是一个简单的排除URL掩码示例:

exclude https://www.mydomain.com/photos

由于此示例是排除URL蒙版,因此不会为与该模式匹配的任何文档编制索引。 该模式匹配所有遇到的项目(文件和文件夹),因此不对https://www.mydomain.com/photos.htmlhttps://www.mydomain.com/photos/index.html(两者都与排除URL匹配)进行索引。 要仅匹配/photos/文件夹中的文件,URL掩码必须包含尾随斜杠,如下例所示:

exclude https://www.mydomain.com/photos/

以下排除蒙版示例使用通配符。 它告诉搜索自动机忽略扩展名为“.pdf”的文件。 搜索自动机不会将这些文件添加到索引中。

exclude *.pdf

简单的包含URL掩码如下:

include https://www.mydomain.com/news/

只有通过URL入口点中的一系列链接链接或本身用作URL入口点的文档才能编入索引。 仅将文档的URL列为包含URL蒙版不会为未链接的文档编制索引。 要将未链接的文档添加到索引,可使用URL入口点功能。

请参阅关于URL入口点

包含蒙版和排除蒙版可以协同工作。 您可以通过创建排除URL掩码,将网站的大部分排除在索引之外,方法是:创建一个排除URL掩码,但该掩码包含一个或多个包含URL掩码的被排除页面。 例如,假设您的入口点URL为:

https://www.mydomain.com/photos/

搜索自动机对/photos/summer//photos/spring//photos/fall/下的所有页面进行爬网和索引(假定从photos文件夹到每个目录中至少有一个页面的链接)。 出现此行为是因为链接路径使搜索自动机能够在/summer//spring//fall/中查找文档,文件夹和文件夹URL与入口点URL自动生成的包含蒙版匹配。

您可以选择排除/fall/文件夹中具有排除URL掩码的所有页面,如下例所示:

exclude https://www.mydomain.com/photos/fall/

或者,选择性地只包含/photos/fall/redleaves4.html作为包含以下URL掩码的索引的一部分:

include https://www.mydomain.com/photos/fall/redleaves4.html

要使上述两个蒙版示例按预期工作,首先列出包括蒙版,如下所示:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

由于搜索机器人按照它们的列出顺序遵循方向,因此搜索机器人首先包括/photos/fall/redleaves4.html,然后排除/fall文件夹中的其余文件。

如果指令的指定方式与以下方式相反:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

然后,即使蒙版指定包含/photos/fall/redleaves4.html,也不会包含它。

首先显示的URL蒙版始终优先于稍后在蒙版设置中显示的URL蒙版。 此外,如果搜索自动机遇到与包含URL蒙版和排除URL蒙版匹配的页面,则首先列出的蒙版始终优先。

请参阅配置分阶段网站的增量索引

关于将关键字与URL掩码一起使用

您可以使用一个或多个空格分隔的关键字限定每个包含蒙版,这些关键字会影响对匹配页面进行索引的方式。

逗号不能作为遮罩和关键字之间的分隔符;只能使用空格。

关键词

描述

noindex

如果您不想为与URL蒙版匹配的页面上的文本编制索引,但想要遵循匹配的页面链接,请添加 noindex 。 请确保将关键字与蒙版分开,并且与以下示例中的空格相同:

include&nbsp;*.swf&nbsp;noindex

上例指定搜索自动机使用 .swf 扩展名,但禁用对包含在这些文件中的所有文本进行索引。

The noindex 关键字等效于具有 content="noindex" <head>...</head> 匹配页面的标记。

nofollow

如果要为与URL蒙版匹配的页面上的文本编制索引,但您不希望遵循匹配页面的链接,请添加 nofollow 。 请确保将关键字与蒙版分开,并且与以下示例中的空格相同:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

The nofollow 关键字等效于具有 content="nofollow" <head>...</head> 匹配页面的标记。

regexp

用于包括和排除蒙版。

前面有任何URL掩码 regexp 被视为常规表达式。 如果搜索自动机遇到与排除常规表达式URL蒙版匹配的文档,则不对这些文档编制索引。 如果搜索自动机遇到与包含常规表达式URL蒙版匹配的文档,则对这些文档进行索引。 例如,假定您具有以下URL掩码:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

搜索自动机排除匹配文件,例如 https://www.mydomain.com/products/page1.html

如果您具有以下排除常规表达式URL掩码:

exclude&nbsp;regexp&nbsp;^.*\?..*$

搜索自动机不包含任何包含CGI参数(如 https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2

如果您具有以下内容,则包括常规表达式URL掩码:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

搜索自动机会跟踪扩展名为"。swf"的文件中的所有链接。 The noindex 关键字还指定不索引匹配文件的文本。

请参阅常规表达式

添加URL蒙版以索引网站的各个部分或不为其索引

可以使用URL Masks定义要或不要爬网和索引的网站部分。

使用“测试URL蒙版”字段可测试索引后是否包含文档。

请确保重新构建网站索引,以便您的客户能够看到URL蒙版的结果。

请参阅配置分阶段网站的增量索引

添加URL蒙版以索引网站的部分或不为其索引

  1. 在产品菜单上,单击​Settings > Crawling > URL Masks

  2. (可选)在URL Masks页面的​Test URL Masks​字段中,输入网站中的测试URL掩码,然后单击​Test

  3. 在URL Masks字段中,键入include(添加要爬网和索引的网站)或键入exclude(阻止网站被爬网和索引),然后键入URL掩码地址。

    每行输入一个URL掩码地址。 示例:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. 单击 Save Changes.

  5. (可选)执行下列任一操作:

关于日期蒙版

您可以使用日期蒙版根据文件的年龄在搜索结果中包含或排除文件。

请确保重新构建网站索引,以便您的客户能够看到URL蒙版的结果。

请参阅配置分阶段网站的增量索引

以下是两种日期蒙版,您可以使用它们:

  • 包括日期蒙版(“include-days”和“include-date”)

    包括日期蒙版索引文件,它们在指定日期之前或在指定日期之前。

  • 排除日期蒙版(“exclude-days”和“exclude-date”)

    排除日期蒙版索引文件,它们的日期在指定日期或之前。

默认情况下,文件日期由meta标签信息确定。 如果未找到Meta标签,则从搜索机器人下载文件时从服务器接收的HTTP头确定文件的日期。

您指定的每个日期蒙版必须位于单独的行上。

蒙版可以指定以下任一选项:

  • https://www.mydomain.com/products.html中的完整路径
  • https://www.mydomain.com/products中的部分路径
  • 使用通配符https://www.mydomain.com/*.html的URL
  • 常规表达式。 要使蒙版成为常规表达式,请在URL前插入关键字regexp

包括和排除日期蒙版都可以通过以下两种方式之一指定日期。 仅当在指定日期或之前创建了匹配的文件时,才应用蒙版:

  1. 几天。 例如,假定您的日期掩码如下:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    指定的天数被计回。 如果文件的日期是在到达日期或到达日期之前,则应用掩码。

  2. 使用YYYY-MM-DD格式的实际日期。 例如,假定您的日期掩码如下:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    如果匹配的文档在指定日期或之前过期,则应用日期掩码。

以下是一个简单的排除日期蒙版示例:

exclude-days 90 https://www.mydomain.com/docs/archive

由于这是排除日期蒙版,因此任何与该模式匹配的文件都不会编制索引,并且旧版本或旧版本为90天。 排除文档时,不会索引任何文本,也不会跟踪该文件中的链接。 文件会被有效忽略。 在此示例中,文件和文件夹可能与指定的URL模式匹配。 请注意,https://www.mydomain.com/docs/archive.htmlhttps://www.mydomain.com/docs/archive/index.html都与模式匹配,如果它们已老90天或更旧,则不索引。 要仅与/docs/archive/文件夹中的文件匹配,日期掩码必须包含尾随斜杠,如下所示:

exclude-days 90 https://www.mydomain.com/docs/archive/

日期蒙版还可与通配符一起使用。 以下排除蒙版告诉搜索自动机忽略扩展名为“.pdf”的2011-02-15或之前的文件。 搜索自动机不会将任何匹配的文件添加到索引中。

exclude-date 2011-02-15 *.pdf

包含日期蒙版看上去很相似,只有匹配的文件才会添加到索引中。 以下包含日期掩码示例告诉搜索自动机从网站/docs/archive/manual/区域中的任何零日或零日旧文件中索引文本。

include-days 0 https://www.mydomain.com/docs/archive/manual/

包含蒙版和排除蒙版可以协同工作。 例如,您可以通过创建排除日期掩码但包含一个或多个带有包含URL掩码的被排除页面,将网站的大部分排除在索引之外。 如果入口点URL为:

https://www.mydomain.com/archive/

搜索自动机对/archive/summer//archive/spring//archive/fall/下的所有页面进行爬网和索引(假定从archive文件夹到的每个文件夹中至少有一个页面的链接)。 出现此行为是因为链接路径使搜索自动机能够“查找”/summer//spring//fall/文件夹中的文件,并且文件夹URL与入口点URL自动生成的包含蒙版匹配。

请参阅关于URL入口点

请参阅配置帐户设置

您可以选择排除/fall/文件夹中存在90天以上的所有页面,其中包含排除日期掩码,如下所示:

exclude-days 90 https://www.mydomain.com/archive/fall/

在包含以下日期掩码的索引中,可以选择仅包含/archive/fall/index.html(不管它的旧版本如何 — 任何文件0天或更旧版本匹配):

include-days 0 https://www.mydomain.com/archive/fall/index.html

要使上述两个蒙版示例按预期工作,您必须首先列表包含蒙版,如下所示:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

由于搜索机器人按照指定的顺序遵循方向,因此搜索机器人首先包括/archive/fall/index.html,然后排除/fall文件夹中的其余文件。

如果指令的指定方式与以下方式相反:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

然后,即使蒙版指定应包含/archive/fall/index.html,也不会包含。 首先出现的日期蒙版始终优先于稍后可能在蒙版设置中显示的日期蒙版。 此外,如果搜索自动机遇到与包含日期蒙版和排除日期蒙版两者匹配的页面,则首先列出的蒙版始终优先。

请参阅配置分阶段网站的增量索引

关于将关键字与日期蒙版一起使用

您可以使用一个或多个空格分隔的关键字限定每个包含蒙版,这些关键字会影响对匹配页面进行索引的方式。

逗号不能作为遮罩和关键字之间的分隔符;只能使用空格。

关键词

描述

noindex

如果您不想在日期在包含蒙版指定的日期或之前的页面上索引文本,请添加 noindex ,如下所示:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

请确保将关键字与蒙版分开并带空格。

上面的示例指定搜索自动机跟踪扩展名为"。swf"的文件中10天或更旧的所有链接。 但是,这会禁用对这些文件中包含的所有文本进行索引。

您可能希望确保未为旧文件的文本编制索引,但仍遵循这些文件中的所有链接。 在这种情况下,请使用包含日期掩码和“noindex”关键字,而不是使用排除日期掩码。

nofollow

如果要在日期在包含蒙版指定的日期或之前的页面上为文本编制索引,但您不希望遵循匹配页面的链接,请添加 nofollow ,如下所示:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

请确保将关键字与蒙版分开并带空格。

The nofollow 关键字等效于具有 content="nofollow" <head>...</head> 匹配页面的标记。

server-date

用于包括和排除蒙版。

搜索机器人通常在检查日期掩码之前下载并解析每个文件。 发生此行为是因为某些文件类型可以在文件本身内指定日期。 例如,HTML文档可以包含设置文件日期的meta标签。

如果要根据文件的日期排除许多文件,而不想在服务器上增加不必要的负载,则可以使用 server-date

此关键字指示搜索机器人信任服务器返回的文件的日期,而不是分析每个文件。 例如,如果文档为90天或更早,则以下排除日期掩码会忽略与URL匹配的页面,这些页面会根据服务器在HTTP头中返回的日期:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

如果服务器返回的日期已过90天或更久, server-date 指定不从服务器下载排除的文档。 这意味着文档的索引创建时间更短,服务器的负载也更轻。 如果 未指定 server-date ,搜索自动机将忽略HTTP头中服务器返回的日期。 而是下载并检查每个文件,以查看是否指定了日期。 如果文件中未指定日期,则搜索自动机将使用服务器返回的日期。

您不应使用 server-date ,如果文件包含覆盖服务器日期的命令。

regexp

用于包括和排除蒙版。

前面为 regexp 被视为常规表达式。

如果搜索自动机遇到与排除常规表达式日期蒙版匹配的文件,它不会为这些文件编制索引。

如果搜索自动机遇到与包含常规表达式日期蒙版匹配的文件,它将为这些文档建立索引。

例如,假设您具有以下日期掩码:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

遮罩会告知搜索自动机排除180天或更早的匹配文件。 即,URL中包含“archive”字样的文件。

请参阅常规表达式

将日期蒙版添加到网站的索引部分或不为其索引部分

您可以使用日期蒙版根据文件的年龄在客户搜索结果中包含或排除文件。

使用​Test Date​和​Test URL​字段测试索引后是否包含文件。

请确保重新构建网站索引,以便您的客户能够看到URL蒙版的结果。

请参阅配置分阶段网站的增量索引

要向网站的各个部分添加日期蒙版以索引或不索引

  1. 在产品菜单上,单击​Settings > Crawling > Date Masks

  2. (可选)在Date Masks页面的​Test Date​字段中,输入格式为YYYY-MM-DD的日期(例如,2011-07-25);在​Test URL​字段中,输入网站中的URL掩码,然后单击​Test

  3. 在Date Masks字段中,每行输入一个日期掩码地址。

  4. 单击 Save Changes.

  5. (可选)执行下列任一操作:

关于密码

要访问受HTTP基本身份验证保护的网站部分,可以添加一个或多个口令。

在“密码”设置的效果对客户可见之前,必须重新构建您的站点索引。

请参阅配置分阶段网站的增量索引

在Passwords页面上,只需在一行中键入每个密码。 密码由URL或领域、用户名和密码组成,如下例所示:

https://www.mydomain.com/ myname mypassword

您还可以指定领域,而不是像上面那样使用URL路径。

要确定要使用的正确领域,请使用浏览器打开受密码保护的网页,然后查看“输入网络密码”对话框。

领域名称,在本例中为“我的站点领域”。

使用上面的领域名称,您的密码可能如下所示:

My Site Realm myusername mypassword

如果您的网站有多个领域,您可以通过在单独行上为每个领域输入用户名和密码来创建多个密码,如下例所示:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

您可以混合包含URL或域的口令,以便您的口令列表可能如下所示:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

在上面的列表中,使用第一个密码,它包含与服务器的身份验证请求匹配的领域或URL。 例如,即使https://www.mysite.com/path1/path2/index.html处的文件位于Realm3中,name2password2也会被使用,因为用URL定义的密码列在用领域定义的密码之上。

为访问网站中需要身份验证的区域添加密码

您可以使用“口令”访问网站中受口令保护的区域,以便进行搜索和索引。

在您的密码的效果对客户可见之前,请确保重新构建站点索引

请参阅配置分阶段网站的增量索引

为访问网站中需要身份验证的区域添加密码

  1. 在产品菜单上,单击​Settings > Crawling > Passwords

  2. 在Passwords页面的​Passwords​字段中,输入领域或URL及其关联的用户名和密码,以空格分隔。

    领域密码和URL密码在单行上的示例:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    每行只添加一个密码。

  3. 单击 Save Changes.

  4. (可选)执行下列任一操作:

关于内容类型

可以使用Content Types选择要对此帐户进行爬网和索引的文件类型。

您可以选择爬网和索引的内容类型包括PDF文档、文本文档、AdobeFlash电影、Microsoft Office应用程序(如Word、Excel和Powerpoint)中的文件以及MP3文件中的文本。 将搜索在所选内容类型内找到的文本以及您网站上的所有其他文本。

在“内容类型”设置的效果对客户可见之前,必须重新构建站点索引。

请参阅配置分阶段网站的增量索引

关于为MP3音乐文件编制索引

如果在Content Types页面上选择选项​Text in MP3 Music Files,将通过两种方式之一对MP3文件进行爬网和索引。 第一种也是最常见的方式是通过HTML文件中的锚点href标签,如下所示:

<a href="MP3-file-URL"></a>

第二种方法是输入MP3文件的URL作为URL入口点。

请参阅关于URL入口点

MP3文件由其MIME类型“audio/mpeg”识别。

请注意,MP3音乐文件大小可能非常大,即使它们通常只包含少量文本。 例如,MP3文件可以选择存储影集名称、艺术家姓名、歌曲标题、歌曲流派、发行年份和评论等内容。 此信息存储在文件的最末,称为TAG。 包含TAG信息的MP3文件按以下方式编制索引:

  • 歌曲标题会被视为HTML页面的标题。
  • 注释被视为为HTML页面定义的描述。
  • 流派被视为为HTML页面定义的关键字。
  • 艺术家名称、影集名称和发行年份被视为HTML页面的正文。

请注意,您网站上已搜索和索引的每个MP3文件都计为一页。

如果您的网站包含许多大型MP3文件,则您可能超出帐户的索引字节限制。 如果发生这种情况,您可以在Content Types页面上取消选择​Text in MP3 Music Files,以阻止对网站上的所有MP3文件进行索引。

如果您只想阻止在您的网站上为某些MP3文件编制索引,可以执行以下操作之一:

  • <nofollow></nofollow>标记环绕链接到MP3文件的锚记。 搜索自动机不跟踪这些标记之间的链接。

  • 将MP3文件的URL添加为排除蒙版。

    请参阅关于URL蒙版

选择要爬网的内容类型并为编制索引

可以使用Content Types选择要对此帐户进行爬网和索引的文件类型。

您可以选择爬网和索引的内容类型包括PDF文档、文本文档、AdobeFlash电影、Microsoft Office应用程序(如Word、Excel和Powerpoint)中的文件以及MP3文件中的文本。 将搜索在所选内容类型内找到的文本以及您网站上的所有其他文本。

在“内容类型”设置的效果对客户可见之前,必须重新构建站点索引。

请参阅配置分阶段网站的增量索引

要爬网和索引中文、日文或韩文MP3文件,请完成以下步骤。 然后,在​Settings > Metadata > Injections​中,指定用于对MP3文件进行编码的字符集。

请参阅关于Injections

选择要爬网和索引的内容类型

  1. 在产品菜单上,单击​Settings > Crawling > Content Types

  2. 在Content Types页面上,检查要在网站上爬网和索引的文件类型。

  3. 单击 Save Changes.

  4. (可选)执行下列任一操作:

关于连接

您可以使用“连接”来添加最多十个HTTP连接,搜索自动机使用这些连接来为您的网站建立索引。

增加连接数可以显着减少完成爬网和索引所花费的时间。 但是,请注意,每个附加连接都会增加服务器上的负载。

添加连接以提高索引速度

您可以通过使用连接来增加Crawler同时使用的HTTP连接数,减少为网站编制索引所花费的时间。 最多可以添加10个连接。

请注意,每个附加连接都会增加您服务器上的负载。

添加连接以提高索引速度

  1. 在产品菜单上,单击​Settings > Crawling > Connections

  2. 在Parallel Indexing Connections页面的​Number of Connections​字段中,输入要添加的连接数(1-10)。

  3. 单击 Save Changes.

  4. (可选)执行下列任一操作:

关于表单提交

您可以使用表单提交来帮助您识别和处理网站上的表单。

在网站的搜索和索引过程中,会将遇到的每个表单与您添加的表单定义进行比较。 如果表单与表单定义匹配,则提交表单以进行索引。 如果表单与多个定义匹配,则对于每个匹配的定义,表单将提交一次。

在您的网站上添加表单定义以索引表单

您可以使用Form Submission来帮助处理在您的网站上识别的用于索引目的的表单。

请确保重新构建站点索引,以便您的客户能够看到更改结果。

请参阅配置分阶段网站的增量索引

在您的网站上添加表单定义以索引表单

  1. 在产品菜单上,单击​Settings > Crawling > Form Submission

  2. 在Form Submission页面上,单击​Add New Form

  3. 在Add Form Definition页面上,设置Form Recognition和Form Submission选项。

    Form Definition页面的Form Recognition部分中的五个选项用于标识网页中可以处理的表单。

    Form Submission部分中的三个选项用于指定随表单一起提交到Web服务器的参数和值。

    每行输入一个识别或提交参数。 每个参数都必须包括名称和值。

    选项

    描述

    表单识别

    页面URL蒙版

    标识包含表单的网页。 要标识在单个页面上显示的表单,请输入该页面的URL,如以下示例中所示:

    https://www.mydomain.com/login.html

    要标识在多个页面上显示的表单,请指定使用通配符描述页面的URL掩码。 例如,要标识在 https://www.mydomain.com/register/ 下的任何ASP页面上遇到的表单,您应指定以下内容:

    https://www.mydomain.com/register/*.asp&nbsp;

    您还可以使用常规表达式来标识多个页面。 只需指定 regexp 关键字,URL掩码前面,如下例所示:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    操作URL掩码

    标识 <form> 标记。

    与页面URL掩码一样,操作URL掩码也可以采用单个URL、带通配符的URL或常规表达式的形式。

    URL掩码可以是下列任一值:

    • 完整路径,如下所示: https://www.mydomain.com/products.html
    • 部分路径,如下所示: https://www.mydomain.com/products
    • 使用通配符的URL,如下所示: https://www.mydomain.com/*.html
    • 常规表达式,如下所示: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    如果您不想为通过URL蒙版或操作URL蒙版标识的页面上的文本编制索引,或者如果您不希望在这些页面上跟随链接,则可以使用 noindex nofollow 关键字。 您可以使用URL蒙版或入口点将这些关键字添加到蒙版。

    请参阅关于URL入口点

    请参阅关于URL蒙版

    表单名称蒙版

    在 网页中的 <form> 标签包含名称属性。

    可以使用简单名称( login_form ,带通配符( form* 或常规表达式( regexp ^.*authorize.*$ )。

    您通常可以将此字段留空,因为表单通常没有名称属性。

    表单ID蒙版

    在 网页中的 <form> 标签包含id属性。

    可以使用简单名称( login_form ,带通配符( form* 或常规表达式( regexp ^.*authorize.*$ )。

    您通常可以将此字段留空,因为表单通常没有名称属性。

    参数

    标识包含或不包含已命名参数或具有特定值的已命名参数的表单。

    例如,要标识包含预设为rick_brough@mydomain.com的电子邮件参数、密码参数而非名字参数的表单,您应指定以下参数设置(每行一个):

    email=rick_brough@mydomain.com password not first-name

    表单提交

    覆盖操作URL

    指定表单提交的目标与表单的操作属性中指定的不同时间。

    例如,当表单通过JavaScript函数提交时,您可以使用此选项,该函数构造的URL值与在表单中找到的URL值不同。

    覆盖方法

    指定表单提交的目标与表单的action属性中使用的不同时间,以及提交JavaScript更改方法时。

    所有表单参数的默认值( <input> 标记,包括隐藏字段), <option> <select> 标记和 <textarea>...</textarea> 标记)。 但是,在参数字段的表单提交部分中列出的任何参数都将替换为表单默认值。

    参数

    您可以在表单提交参数前加上 not 关键字。

    在参数前缀为 not ,它不作为表单提交的一部分提交。 此行为对于应取消选择提交的复选框很有用。

    例如,假设您要提交以下参数:

    • 包含值的电子邮件参数 nobody@mydomain.com
    • 带有值的password参数 tryme
    • 取消选择mycheckbox参数。
    • 所有其他 <form> 参数作为默认值

    您的表单提交参数如下所示:

    email=nobody@mydomain.com password=tryme not mycheckbox

    的方法属性 网页上的 <form> 标记用于确定是使用GET方法还是POST方法将数据发送到服务器。

    如果 <form> 标记不包含方法属性,将使用GET方法提交表单。

  4. 单击 Add.

  5. (可选)执行下列任一操作:

编辑表单定义

如果网站上的表单已更改,或者您只需要更改定义,则可以编辑现有表单定义。

请注意,在Form Submission页面上没有History功能可恢复您对表单定义所做的任何更改。

请确保重新构建站点索引,以便您的客户能够看到更改结果。

请参阅配置分阶段网站的增量索引

编辑表单定义

  1. 在产品菜单上,单击​Settings > Crawling > Form Submission

  2. 在Form Submission页面上,单击要更新的表单定义右侧的​Edit

  3. 在Edit Form Definition页面上,设置Form Recognition和Form Submission选项。

    请参阅添加用于在网站上为表单编制索引的表单定义下的选项表

  4. 单击 Save Changes.

  5. (可选)执行下列任一操作:

删除表单定义

如果表单不再存在于您的网站上,或者您不再希望处理和索引特定表单,则可以删除现有表单定义。

请注意,在Form Submission页面上没有History功能可恢复您对表单定义所做的任何更改。

请确保重新构建站点索引,以便您的客户能够看到更改结果。

请参阅配置分阶段网站的增量索引

删除表单定义

  1. 在产品菜单上,单击​Settings > Crawling > Form Submission

  2. 在Form Submission页面上,单击要删除的表单定义右侧的​Delete

    确保选择要删除的正确表单定义。 在下一步中单击​Delete​时,不显示删除确认对话框。

  3. 在Delete Form Definition页面上,单击​Delete

  4. (可选)执行下列任一操作:

关于索引连接器

使用Index Connector定义用于为XML页面或任何类型的源编制索引的其他输入源。

您可以使用数据馈送输入源访问以不同于网站上通常使用的爬网方法之一发现的表单中存储的内容。 每个已爬网和索引的文档都与您网站上的内容页面直接对应。 但是,数据馈送来自XML文档,或来自逗号或制表符分隔的文本文件,并包含要索引的内容信息。

XML数据源由XML标准或记录组成,这些标准或记录包含与各个文档对应的信息。 这些单个文档将添加到索引中。 文本数据馈送包含与各个文档对应的新行分隔的单独记录。 这些单个文档也添加到索引中。 无论哪种情况,索引连接器配置都描述如何解释源。 每个配置都描述文件所在的位置以及服务器如何访问它。 配置还描述了“映射”信息。 即,如何使用每个记录的项来填充生成索引中的元数据字段。

在将索引连接器定义添加到Staged Index Connector Definitions页面后,可以更改任何配置设置,​之外的名称或类型值。

Index Connector页显示以下信息:

  • 已配置和添加的已定义索引连接器的名称。

  • 已添加的每个连接器的以下数据源类型之一:

    • 文本 — 简单的“平面”文件、逗号分隔、制表符分隔或其他一致的分隔格式。
    • - XML源。
    • XML - XML文档集合。
  • 是否已为下次爬网和索引完成启用连接器。

  • 数据源的地址。

另请参阅关于索引连接器

索引过程对索引连接器中的文本和源配置的工作方式

步骤

过程

描述

1

下载数据源。

对于文本和源配置,只需下载一个简单的文件。

2

将下载的数据源分解为单个伪文档。

对于文本,每行以换行符分隔的文本对应一个单独的文档,并使用指定的分隔符(如逗号或制表符)进行分析。

对于,使用以下形式的常规文档模式提取每个表达式的数据:

<${Itemtag}>(.*?)</${Itemtag}>

使用索引连接器添加页上的映射,创建数据的缓存副本,然后为Crawler创建链接列表。 数据存储在本地缓存中,并填充配置的字段。

解析的数据被写入本地缓存。

稍后将读取此缓存,以创建Crawler需要的简单HTML文档。 例如:

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

<title> 元素仅在存在到“标题”元数据字段的映射时生成。 同样, <body> 元素仅在存在到Body元数据字段的映射时生成。

重要说明:不支持将值赋给预定义的URL meta标记。

对于所有其他映射,将为在原始文档中找到数据的每个字段生成 <meta> 标签。

每个文档的字段将添加到缓存中。 对于写入缓存的每个文档,也会生成一个链接,如以下示例中所示:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

配置的映射必须有一个字段标识为主键。 此映射构成从缓存中获取数据时使用的键。

Crawler可识别URL 索引:方案前缀,然后访问本地缓存的数据。

3

爬网缓存的文档集。

索引:链接将添加到Crawler的挂起列表,并按正常爬网序列进行处理。

4

处理每个文档。

每个链接的键值对应于缓存中的一个条目,因此搜索每个链接会导致从缓存中获取该文档的数据。 然后,它将“组合”为HTML图像,并进行处理并添加到索引中。

索引过程如何用于索引连接器中的XML配置

XML配置的索引过程与文本和源配置的过程类似,只有以下细微更改和例外。

由于XML爬网的文档已分离为单个文件,因此上表中的步骤1和步骤2不直接适用。 如果在Index Connector Add页面的​Host Address​和​File Path​字段中指定URL,则会下载该URL并将其作为普通HTML文档进行处理。 期望下载文档包含一组<a href="{url}"...链接,每个链接指向要处理的XML文档。 此类链接将转换为以下表单:

<a href="index:<ic_config_name>?url="{url}">

例如,如果Adobe设置返回了以下链接:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

在上表中,步骤3不适用,步骤4在爬网和索引时完成。

您也可以将XML文档与在爬网过程中自然发现的其他文档混合。 在这种情况下,您可以使用重写规则(Settings > Rewrite Rules > Crawl List Retrieve URL Rules)来更改XML文档的URL,将其定向到索引连接器。

请参阅关于爬网列表检索URL规则

例如,假定您有以下重写规则:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

此规则将以.xml结尾的任何URL转换为索引连接器链接。 爬网程序识别并重写index: URL方案。 下载过程将通过主服务器上的Index Connector Apache服务器重定向。 每个下载的文档都使用与源使用的相同常规表达式模式进行检查。 但是,在这种情况下,制造的HTML文档不会保存在缓存中。 而是直接交给爬虫进行索引处理。

如何配置多个索引连接器

您可以为任何帐户定义多个索引连接器配置。 这些配置会自动添加到​Settings > Crawl > URL Entrypoints​的下拉列表中,如下图所示:

从下拉列表中选择配置会将值添加到URL入口点列表的末尾。

注意

当禁用的索引连接器配置被添加到下拉列表时,您无法选择它们。 如果再次选择同一“索引连接器”配置,则会将其添加到列表的末尾,并删除上一个实例。

要指定增量爬网的索引连接器入口点,可使用以下格式添加条目:

index:<indexconnector_configuration_name>

如果在“索引连接器”页上找到并启用了该条目,Crawler将处理每个添加的条目。

注意:由于每个文档的URL都是使用索引连接器配置名称和文档的主键构建的,请确保在执行增量更新时使用相同的索引连接器配置名称! 这样做允许Adobe Search&Promote正确更新以前已索引的文档。

另请参阅关于URL入口点

在添加索引连接器时使用设置映射

添加索引连接器时,可以选择使用功能​Setup Maps​下载数据源的示例。 检查数据是否适合索引。

如果选择“索引连接器”类型……

设置映射功能……

文本

通过先试用制表符,然后使用垂直条( | ),最后是逗号()。 如果您在单击设置映射之前已指定分隔符值,则会改用该值。

最佳匹配方案使映射字段填充了适当标记和字段值的猜测。 此外,显示所分析数据的采样。 如果您知道文件包含标题行,请务必在第一行中选择标题。 设置函数使用此信息以更好地标识生成的映射条目。

信息源

下载数据源并执行简单的XML分析。

生成的XPath标识符显示在“映射”表的“标记”行中,在“字段”中显示类似值。 这些行只标识可用数据,不生成更复杂的XPath定义。 但是,它仍然很有帮助,因为它描述了XML数据并标识了Itemtag值。

注意: “设置映射”功能下载整个XML源以执行其分析。 如果文件很大,此操作可能会超时。

成功后,此函数将标识所有可能的XPath项,其中许多项不适合使用。 请确保检查生成的映射定义并删除不需要或需要的映射定义。

XML

下载代表个人文档的URL,而非主链接列表。 此单个文档将使用与源一起使用的相同机制进行分析,并显示结果。

单击添加以保存配置之前,请确保将URL更改回主链接列表文档。

重要说明:“设置映射”功能可能不适用于大型XML数据集,因为其文件分析器会尝试将整个文件读入内存。因此,您可能会遇到内存不足的情况。 但是,当在索引时处理同一文档时,不会将其读入内存。 相反,大型文档会“在旅途中”进行处理,而不会首先完全读入内存。

在添加索引连接器时使用预览

在添加索引连接器时,您可以选择使用功能​Preview​验证数据,就像保存数据一样。 它针对配置运行测试,但不将配置保存到帐户。 测试访问配置的数据源。 但是,它将下载缓存写入临时位置;它与索引创建程序使用的主缓存文件夹不冲突。

预览仅处理由Acct:IndexConnector-预览-Max-文档控制的5个文档的默认值。 预览的文档以源形式显示,就像它们呈现给索引爬虫一样。 显示屏类似于Web浏览器中的“视图源”功能。 您可以使用标准导航链接导航预览集中的文档。

预览不支持XML配置,因为此类文档会直接处理而不下载到缓存中。

添加索引连接器定义

每个索引连接器配置都定义一个数据源和映射,以将为该源定义的数据项与索引中的元数据字段关联。

在新的已启用定义的效果对客户可见之前,请重新构建您的站点索引。

添加索引连接器定义

  1. 在产品菜单上,单击​Settings > Crawling > Index Connector

  2. 在Stage Index Connector Definitions页面上,单击​Add New Index Connector

  3. 在Index Connector Add页面上,设置所需的连接器选项。 可用的选项取决于您选择的​Type

    选项

    描述

    名称

    索引连接器配置的唯一名称。 您可以使用字母数字字符。 也允许使用字符"_"和"-"。

    类型

    数据源。 您选择的数据源类型会影响在索引连接器添加页上可用的结果选项。 您可以从以下选项中进行选择:

    • 文本

      简单的平面文本文件、逗号分隔、制表符分隔或其他一致的分隔格式。 每行以换行符分隔的文本对应于单个文档,并使用指定的分隔符进行分析。

      您可以将每个值或列映射到元数据字段,该字段由列号引用,从1(1)开始。

    • 信息源

      下载包含多个“行”信息的主XML文档。

    • XML

      下载包含链接的主XML文档( <a> )到单个XML文档。

    数据源类型:文本

    启用

    将配置“打开”以爬网和索引。 或者,您可以关闭配置以防止搜索和索引。

    注意:如果在入口点列表中找到禁用的索引连接器配置,则忽略它们。

    主机地址

    指定数据所在的服务器主机的地址。

    如果需要,您可以指定数据源文档的完整URI(统一资源标识符)路径,如下例所示:

    https://www.somewhere.com/some_path/some_file.xml

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    URI将分为“主机地址”、“文件路径”、“协议”以及(可选)“用户名”和“口令”字段的相应条目。

    指定找到数据源文件的主机系统的IP地址或URL地址。

    文件路径

    指定简单的平面文本文件、逗号分隔、制表符分隔或其他一致分隔格式文件的路径。

    路径相对于主机地址的根。

    增量文件路径

    指定简单的平面文本文件、逗号分隔、制表符分隔或其他一致分隔格式文件的路径。

    路径相对于主机地址的根。

    如果指定,将在增量索引操作期间下载并处理此文件。 如果未指定文件,则使用“文件路径”下列出的文件。

    垂直文件路径

    指定在“垂直更新”期间使用的简单平面文本文件、逗号分隔、制表符分隔或其他一致分隔格式文件的路径。

    路径相对于主机地址的根。

    如果指定,将在“垂直更新”操作期间下载并处理此文件。

    注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    删除文件路径

    指定简单的平面文本文件的路径,每行包含一个文档标识符值。

    路径相对于主机地址的根。

    如果指定,将在增量索引操作期间下载并处理此文件。 此文件中的值用于构造“delete”请求以删除以前索引的文档。 此文件中的值必须与“完整文件路径”或“增量文件路径”文件中的值相对应,该文件位于标识为主键的列中。

    注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    协议

    指定用于访问文件的协议。 您可以从以下选项中进行选择:

    • HTTP

      如有必要,可输入正确的身份验证凭据以访问HTTP服务器。

    • HTTPS

      如有必要,您可以输入正确的身份验证凭据来访问HTTPS服务器。

    • FTP

      必须输入正确的身份验证凭据才能访问FTP服务器。

    • SFTP

      必须输入正确的身份验证凭据才能访问SFTP服务器。

    • File(文件)

    超时

    指定FTP、SFTP、HTTP或HTTPS连接的超时(以秒为单位)。 此值必须介于30和300之间。

    重试

    指定失败的FTP、SFTP、HTTP或HTTPS连接的最大重试数。 此值必须介于0和10之间。

    值为零(0)将阻止重试尝试。

    编码

    指定在指定的数据源文件中使用的字符编码系统。

    Delimiter(分隔符)

    指定要在指定的数据源文件中描绘每个字段的字符。

    逗号字符()是分隔符的示例。 逗号用作字段分隔符,有助于在指定的数据源文件中分隔数据字段。

    选择 Tab? 以使用horizontal-tab字符作为分隔符。

    第一行中的标题

    指示数据源文件中的第一行仅包含标题信息,而不包含数据。

    索引的最小文档数

    如果设置为正值,则指定下载的文件中所需的最少记录数。 如果接收的记录较少,则索引操作将中止。

    注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    注意:此功能仅在完整索引操作期间使用。

    地图

    使用列号指定列到元数据的映射。

    • 指定列号,第一列为1(1)。 要为每个列添加新的映射行,请在操作下,单击 +

      您无需引用数据源中的每列。 相反,您可以选择跳过值。

    • 字段

      定义用于每个生成的<meta>标记的名称属性值。

    • 元数据?

      使字段成为下拉列表,您可以从中选择为当前帐户定义的元数据字段。

      如果需要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本使用的内容很有用。

      请参阅关于筛选脚本

      当索引连接器在任何映射字段上处理具有多个点击的XML文档时,这些多个值将连接到生成的缓存文档中的单个值。 默认情况下,这些值使用逗号分隔符组合。 但是,假设相应的字段值是定义的元数据字段。 此外,该字段还设置了允许列表属性。 在这种情况下,在串联中使用字段的列表分隔符值(定义的第一个分隔符)。

    • 主键?

      只有一个映射定义被标识为主键。 此字段将成为将此文档添加到索引时显示的唯一引用。 此值用于索引中文档的URL。

      主键值在索引连接器配置所表示的所有文档中必须唯一 — 遇到的任何重复都将被忽略。 如果源文档不包含用作主键的唯一值,但将两个或多个字段组合在一起可以形成唯一标识符,则可以通过将多个值与垂直条("|")分隔来定义主键值。

    • 删除HTML?

      选中此选项后,将删除在此字段数据中找到的任何HTML标记。

    • 操作

      允许您向映射中添加行或从映射中删除行。 行的顺序不重要。

    数据源类型:Feed

    启用

    将配置“打开”以爬网和索引。 或者,您可以关闭配置以防止搜索和索引。

    注意:如果在入口点列表中找到禁用的索引连接器配置,则忽略它们。

    主机地址

    指定找到数据源文件的主机系统的IP地址或URL地址。

    文件路径

    指定包含多个“行”信息的主XML文档的路径。

    路径相对于主机地址的根。

    增量文件路径

    指定包含多个“行”信息的增量XML文档的路径。

    路径相对于主机地址的根。

    如果指定,将在增量索引操作期间下载并处理此文件。 如果未指定文件,则使用“文件路径”下列出的文件。

    垂直文件路径

    指定XML文档的路径,该路径包含在垂直更新期间要使用的多个稀疏“行”信息。

    路径相对于主机地址的根。

    如果指定,将在“垂直更新”操作期间下载并处理此文件。

    注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    删除文件路径

    指定简单的平面文本文件的路径,每行包含一个文档标识符值。

    路径相对于主机地址的根。

    如果指定,将在增量索引操作期间下载并处理此文件。 此文件中的值用于构造“delete”请求以删除以前索引的文档。 此文件中的值必须与“完整文件路径”或“增量文件路径”文件中的值相对应,该文件位于标识为主键的列中。

    注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    协议

    指定用于访问文件的协议。 您可以从以下选项中进行选择:

    • HTTP

      如有必要,可输入正确的身份验证凭据以访问HTTP服务器。

    • HTTPS

      如有必要,您可以输入正确的身份验证凭据来访问HTTPS服务器。

    • FTP

      必须输入正确的身份验证凭据才能访问FTP服务器。

    • SFTP

      必须输入正确的身份验证凭据才能访问SFTP服务器。

    • File(文件)

    Itemtag

    标识可用于标识您指定的数据源文件中各个XML行的XML元素。

    例如,在Adobe XML文档的以下Feed片段中,Itemtag值为记录:

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=zh-Hans"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=zh-Hans"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    索引的最小文档数

    如果设置为正值,则指定下载的文件中所需的最少记录数。 如果接收的记录较少,则索引操作将中止。

    注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    注意:此功能仅在完整索引操作期间使用。

    地图

    允许您使用XPath表达式指定XML元素到元数据的映射。

    • 标记

      指定已解析的XML数据的XPath表示形式。 使用上面的示例Adobe XML文档,在选项Itemtag下,可以使用以下语法映射它:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      上述语法的翻译如下:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        显示记录元素的属性映射到元数据字段 page-url

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        包含在元数据元素中的任何元数据元素的内容属性,该元素包含在记录元素中,其名称属性为标题,映射到元数据字段标题

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        包含在记录元素内的元数据元素中的任何元数据元素的内容属性映射到元数据字段 desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        包含在记录元素中的元数据元素中的任何元数据元素的内容属性映射到元数据字段正文

      XPath是一个相对复杂的表示法。 有关更多信息,请访问以下位置:

      请参阅 https://www.w3schools.com/xpath/

    • 字段

      定义用于每个生成的 <meta> 标记的名称属性值。

    • 元数据?

      使字段成为下拉列表,您可以从中选择为当前帐户定义的元数据字段。

      如果需要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本使用的内容很有用。

      请参阅关于筛选脚本

      当索引连接器在任何映射字段上处理具有多个点击的XML文档时,这些多个值将连接到生成的缓存文档中的单个值。 默认情况下,这些值使用逗号分隔符组合。 但是,假设相应的字段值是定义的元数据字段。 此外,该字段还设置了允许列表属性。 在这种情况下,在串联中使用字段的列表分隔符值(定义的第一个分隔符)。

    • 主键?

      只有一个映射定义被标识为主键。 此字段将成为将此文档添加到索引时显示的唯一引用。 此值用于索引中文档的URL。

      主键值在索引连接器配置所表示的所有文档中必须唯一 — 遇到的任何重复都将被忽略。 如果源文档不包含用作主键的唯一值,但两个或多个字段结合在一起可以形成唯一标识符,则可以通过将多个标记定义与垂直条("|")分隔组合来定义主键值。

    • 删除HTML?

      选中此选项后,将删除在此字段数据中找到的所有HTML标记。

    • 是否用于删除?

      仅在增量索引操作期间使用。 与此XPath模式匹配的记录标识要删除的项。 每个此类记录的主键值用于构造“delete”请求,与删除文件路径一样。

      注意:默认情况下未启用此功能。请联系技术支持以激活该功能以供您使用。

    • 操作

      允许您向映射中添加行或从映射中删除行。 行的顺序不重要。

    数据源类型:XML

    启用

    将配置“打开”以爬网和索引。 或者,您可以关闭配置以防止搜索和索引。

    注意:如果在入口点列表中找到禁用的索引连接器配置,则忽略它们。

    主机地址

    指定找到数据源文件的主机系统的URL地址。

    文件路径

    指定包含链接的主XML文档的路径( <a> )到单个XML文档。

    路径相对于主机地址的根。

    协议

    指定用于访问文件的协议。 您可以从以下选项中进行选择:

    • HTTP

      如有必要,可输入正确的身份验证凭据以访问HTTP服务器。

    • HTTPS

      如有必要,您可以输入正确的身份验证凭据来访问HTTPS服务器。

    • FTP

      必须输入正确的身份验证凭据才能访问FTP服务器。

    • SFTP

      必须输入正确的身份验证凭据才能访问SFTP服务器。

    • File(文件)

    注意:仅当在“主机地址”和/或“文件路径”字段中指定信息时,才使用协议设置。单个XML文档根据其URL规范使用HTTP或HTTPS进行下载。

    Itemtag

    标识在您指定的数据源文件中定义“行”的XML元素。

    地图

    允许您使用列号指定列到元数据的映射。

    • 标记

      指定已解析的XML数据的XPath表示形式。 使用上面的Adobe XML文档示例,在选项Itemtag下,可以使用以下语法映射它:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      上述语法的翻译如下:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        显示记录元素的属性映射到元数据字段 page-url

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        包含在元数据元素中的任何元数据元素的内容属性,该元素包含在记录元素中,其名称属性为标题,映射到元数据字段标题

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        包含在记录元素内的元数据元素中的任何元数据元素的内容属性映射到元数据字段 desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        包含在记录元素中的元数据元素中的任何元数据元素的内容属性映射到元数据字段正文

      XPath是一个相对复杂的表示法。 有关更多信息,请访问以下位置:

      请参阅 https://www.w3schools.com/xpath/

    • 字段

      定义用于每个生成的<meta>标记的名称属性值。

    • 元数据?

      使字段成为下拉列表,您可以从中选择为当前帐户定义的元数据字段。

      如果需要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本使用的内容很有用。

      请参阅关于筛选脚本

      当索引连接器在任何映射字段上处理具有多个点击的XML文档时,这些多个值将连接到生成的缓存文档中的单个值。 默认情况下,这些值使用逗号分隔符组合。 但是,假设相应的字段值是定义的元数据字段。 此外,该字段还设置了允许列表属性。 在这种情况下,在串联中使用字段的列表分隔符值(定义的第一个分隔符)。

    • 主键?

      只有一个映射定义被标识为主键。 此字段将成为将此文档添加到索引时显示的唯一引用。 此值用于索引中文档的URL。

      主键值在索引连接器配置所表示的所有文档中必须唯一 — 遇到的任何重复都将被忽略。 如果源文档不包含用作主键的唯一值,但两个或多个字段结合在一起可以形成唯一标识符,则可以通过将多个标记定义与垂直条("|")分隔组合来定义主键值。

    • 删除HTML?

      选中此选项后,将删除在此字段数据中找到的所有HTML标记。

    • 操作

      允许您向映射中添加行或从映射中删除行。 行的顺序不重要。

  4. (可选)单击​Setup Maps​下载数据源的示例。 检查数据是否适合索引。 此功能仅适用于文本和源类型。

  5. (可选)单击​Preview​以测试配置的实际工作情况。 此功能仅适用于文本和源类型。

  6. 单击​Add​将配置添加到Index Connector Definitions页面和URL Entrypoints页面的Index Connector Configurations下拉列表。

    请参阅关于URL入口点

  7. 在Index Connector Definitions页面上,单击​rebuild your staged site index

  8. (可选)在Index Connector Definitions页面上,执行下列任一操作:

编辑索引连接器定义

可以编辑已定义的现有索引连接器。

注意

并非所有选项都可供您更改,例如Type下拉列表中的“索引连接器名称”或“类型”。

编辑索引连接器定义

  1. 在产品菜单上,单击​Settings > Crawling > Index Connector

  2. 在Index Connector页面的Actions列标题下,单击​Edit​以查找要更改其设置的索引连接器定义名称。

  3. 在Index Connector Edit页面上,设置所需的选项。

    请参见添加索引连接器定义下的选项表。

  4. 单击 Save Changes.

  5. (可选)在Index Connector Definitions页面上,单击​rebuild your staged site index

  6. (可选)在Index Connector Definitions页面上,执行下列任一操作:

查看索引连接器定义的设置

可以查看现有索引连接器定义的配置设置。

在将索引连接器定义添加到Index Connector Definitions页面后,无法更改其类型设置。 相反,您必须删除定义,然后添加新定义。

要视图索引连接器定义的设置

  1. 在产品菜单上,单击​Settings > Crawling > Index Connector
  2. 在Index Connector页面的Actions列标题下,单击​Edit​以查找要查看或编辑其设置的索引连接器定义名称。

复制索引连接器定义

您可以复制现有索引连接器定义以用作要创建的新索引连接器的基础。

在复制索引连接器定义时,默认情况下会禁用复制的定义。 要启用或“打开”定义,必须从Index Connector Edit页面编辑该定义,然后选择​Enable

请参阅编辑索引连接器定义

复制索引连接器定义

  1. 在产品菜单上,单击​Settings > Crawling > Index Connector

  2. 在Index Connector页面的Actions列标题下,单击​Copy​以查找要重复其设置的索引连接器定义名称。

  3. 在Index Connector Copy页面上,输入定义的新名称。

  4. 单击 Copy.

  5. (可选)在Index Connector Definitions页面上,执行下列任一操作:

重命名索引连接器定义

可以更改现有索引连接器定义的名称。

重命名定义后,请检查​Settings > Crawling > URL Entrypoints。 您要确保新定义名称反映在URL Entrypoints页面的下拉列表中。

请参阅添加要索引的多个URL入口点

重命名索引连接器定义

  1. 在产品菜单上,单击​Settings > Crawling > Index Connector

  2. 在Index Connector页面的Actions列标题下,单击​Rename​以查看要更改的索引连接器定义名称。

  3. 在Index Connector Rename页面的Name字段中输入定义的新名称。

  4. 单击 Rename.

  5. 单击 Settings > Crawling > URL Entrypoints. 如果列表中存在以前的索引连接器名称,请删除该名称,然后添加新重命名的条目。

    请参阅添加要索引的多个URL入口点。 1. (可选)在Index Connector Definitions页面上,执行下列任一操作:

删除索引连接器定义

您可以删除不再需要或使用的现有索引连接器定义。

删除索引连接器定义

  1. 在产品菜单上,单击​Settings > Crawling > Index Connector
  2. 在Index Connector Definitions页面的Actions列标题下,单击​Delete​以获取要删除的索引连接器定义名称。
  3. 在Index Connector Delete页面上,单击​Delete

On this page

Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now
Adobe Maker Awards Banner

Time to shine!

Apply now for the 2021 Adobe Experience Maker Awards.

Apply now