使用搜索菜单设置日期和URL蒙版、密码、内容类型、连接、表单定义和URL入口点。
大多数网站都有一个客户最初访问的主要入口点或主页。 此主入口点是搜索自动机开始索引搜索的URL地址。 但是,如果您的网站有多个域或子域,或者您的站点的某些部分没有从主入口点链接,则可以使用URL入口点添加更多入口点。
将索引每个指定URL入口点下的所有网站页面。 您可以将URL入口点与蒙版组合,以准确控制要索引的网站的哪些部分。 在客户看到URL入口点设置的效果之前,必须重新构建网站索引。
主要入口点通常是要索引和搜索的网站的URL。 您可以在帐户设置中配置此主入口点。
请参阅配置帐户设置。
指定主URL入口点后,可以选择指定要按顺序爬网的其他入口点。 通常,您会为未从主入口点下的页面链接的网页指定其他入口点。 如以下示例所示,当您的网站跨越多个域时指定其他入口点:
https://www.domain.com/
https://www.domain.com/not_linked/but_search_me_too/
https://more.domain.com/
您可以在下表中使用一个或多个以空格分隔的关键字限定每个入口点。 这些关键字影响页面的索引方式。
重要说明:请确保将给定关键字与入口点分开,并用空格相隔;逗号不是有效的分隔符。
关键词 |
描述 |
---|---|
noindex |
如果不想在入口点页面上为文本编制索引,但想要遵循该页面的链接,请添加
如以下示例所示,将关键字与入口点分隔为空格: 此关键字等效于具有
|
nofoly |
如果要为入口点页面中的文本编制索引,但不希望跟踪该页面的任何链接,请添加
如以下示例所示,将关键字与入口点分隔为空格: 此关键字等效于具有
|
表单 |
当入口点为登录页面时,
通常使用 |
另请参阅关于内容类型。
另请参阅关于索引连接器。
如果您的网站有多个域或子域,并且您希望对它们进行爬网,则可以使用URL入口点添加更多URL。
要设置网站的主URL入口点,请使用“帐户设置”。
请参阅配置帐户设置。
添加要编制索引的多个URL入口点
在产品菜单中,单击Settings > Crawling > URL Entrypoints。
在URL Entrypoints页面的Entrypoints字段中,每行输入一个URL地址。
(可选)在Add Index Connector Configurations下拉列表中,选择要添加为索引入口点的索引连接器。
下拉列表仅在您之前添加了一个或多个索引连接器定义时才可用。
请参阅添加索引连接器定义。
单击 Save Changes.
(可选)执行下列任一操作:
URL蒙版是一种模式,它们决定您的网站中哪个文档搜索自动机索引或不是索引。
请确保重新构建站点索引,以便您的客户能够看到URL蒙版的结果。
请参阅配置分阶段网站的增量索引。
以下是两种可以使用的URL蒙版:
包括URL蒙版,告知搜索自动机为与蒙版模式匹配的任何文档编制索引。
排除URL蒙版会通知搜索自动机为匹配文档建立索引。
当搜索机器人从链接穿行到网站的链接时,它会遇到URL并查找与这些URL匹配的蒙版。 第一个匹配项确定是将该URL包含在索引中还是从索引中排除。 如果没有与遇到的URL匹配的遮罩,则该URL将从索引中丢弃。
将自动生成入口点URL的URL蒙版。 此行为可确保您网站上遇到的所有文档都已建立索引。 它还可以方便地删除“离开”您网站的链接。 例如,如果索引页面链接到https://www.yahoo.com,则搜索自动机不会对该URL进行索引,因为它与入口点URL自动生成的包含蒙版不匹配。
您指定的每个URL掩码都必须位于单独的行上。
遮罩可以指定以下任一项:
完整路径,如https://www.mydomain.com/products.html
中所示。
部分路径,如https://www.mydomain.com/products
中所示。
使用通配符的URL,如https://www.mydomain.com/*.html
中所示。
常规表达式(适用于高级用户)。
要使遮罩成为常规表达式,请在遮罩类型(exclude
或include
)和URL遮罩之间插入关键字regexp
。
以下是一个简单的排除URL掩码示例:
exclude https://www.mydomain.com/photos
由于此示例是排除URL掩码,因此不会为与该模式匹配的任何文档编制索引。 该模式匹配所遇到的任何项目(文件和文件夹),因此https://www.mydomain.com/photos.html
和https://www.mydomain.com/photos/index.html
(两者均与排除URL匹配)不进行索引。 要仅与/photos/
文件夹中的文件匹配,URL掩码必须包含尾随斜杠,如下例所示:
exclude https://www.mydomain.com/photos/
以下排除遮罩示例使用通配符。 它告诉搜索自动机忽略扩展名为“.pdf”的文件。 搜索自动机不会将这些文件添加到索引中。
exclude *.pdf
简单的包含URL掩码如下:
include https://www.mydomain.com/news/
只有通过URL入口点中的一系列链接链接链接的文档,或者本身用作URL入口点的链接,才会建立索引。 仅将文档的URL列为包含URL掩码不会为未链接的文档编制索引。 要向索引中添加未链接的文档,可使用URL入口点功能。
请参阅关于URL入口点。
包括蒙版和排除蒙版可以协同工作。 您可以通过创建排除URL掩码并包含一个或多个带有包含URL掩码的被排除页面,将网站的很大一部分排除在索引之外。 例如,假定您的入口点URL如下:
https://www.mydomain.com/photos/
搜索自动机对/photos/summer/
、/photos/spring/
和/photos/fall/
下的所有页面进行爬网和索引(假定每个目录中都有从photos
文件夹至少一个页面的链接)。 出现此行为是因为链接路径使搜索自动机能够在/summer/
、/spring/
和/fall/
中找到文档,文件夹和文件夹URL与入口点URL自动生成的包含掩码匹配。
您可以选择排除/fall/
文件夹中具有排除URL掩码的所有页面,如下例所示:
exclude https://www.mydomain.com/photos/fall/
或者,选择性地仅包含/photos/fall/redleaves4.html
作为索引的一部分,并且包含以下URL掩码:
include https://www.mydomain.com/photos/fall/redleaves4.html
要使上述两个蒙版示例按预期工作,首先列出包括蒙版,如下所示:
include https://www.mydomain.com/photos/fall/redleaves4.html
exclude https://www.mydomain.com/photos/fall/
由于搜索机器人按照其列出的顺序遵循方向,因此搜索机器人首先包括/photos/fall/redleaves4.html
,然后排除/fall
文件夹中的其余文件。
如果指令的指定方式与下面相反:
exclude https://www.mydomain.com/photos/fall/
include https://www.mydomain.com/photos/fall/redleaves4.html
然后,即使掩码指定包含/photos/fall/redleaves4.html
,也不会包含它。
首先显示的URL掩码始终优先于稍后在掩码设置中显示的URL掩码。 此外,如果搜索自动机遇到与包含URL蒙版和排除URL蒙版匹配的页面,则首先列出的蒙版始终优先。
请参阅配置分阶段网站的增量索引。
您可以使用一个或多个空格分隔的关键字限定每个包含蒙版,这些关键字会影响匹配页面的索引方式。
逗号不能作为遮罩和关键字之间的分隔符;只能使用空格。
关键词 |
描述 |
---|---|
noindex |
如果不想为与URL掩码匹配的页面上的文本编制索引,但想要遵循匹配的页面链接,请添加
上面的示例指定搜索机器人使用
The
|
nofoly |
如果要为与URL掩码匹配的页面上的文本编制索引,但不想遵循匹配页面的链接,请添加
The
|
regexp |
用于包括和排除蒙版。 前面带有任何URL掩码
搜索自动机排除匹配文件,如
如果您具有以下排除常规表达式URL掩码: 搜索自动机不包含任何包含CGI参数的URL,如
如果您具有以下各项,则包括常规表达式URL掩码: 搜索自动机会跟踪扩展名为“.swf”的文件中的所有链接。 The
请参阅常规表达式。 |
可使用URL Masks定义要或不要爬网和索引的网站的哪些部分。
使用“测试URL蒙版”字段测试索引后是否包含文档。
请确保重新构建站点索引,以便您的客户能够看到URL蒙版的结果。
请参阅配置分阶段网站的增量索引。
添加URL蒙版以索引网站的各个部分或不为其索引
在产品菜单中,单击Settings > Crawling > URL Masks。
(可选)在URL Masks页面的Test URL Masks字段中,从您的网站输入测试URL掩码,然后单击Test。
在URL Masks字段中,键入include
(添加要爬网和索引的网站)或键入exclude
(阻止网站被爬网和索引),后跟URL掩码地址。
每行输入一个URL掩码地址。 示例:
include https://www.mycompany.com/summer
include https://www.mycompany.com/spring
exclude regexp .*\.xml
exclude https://www.mycompany.com/fall
单击 Save Changes.
(可选)执行下列任一操作:
您可以使用日期蒙版根据文件的年龄,在搜索结果中包含或排除文件。
请确保重新构建站点索引,以便您的客户能够看到URL蒙版的结果。
请参阅配置分阶段网站的增量索引。
以下是两种日期蒙版,您可以使用它们:
包括日期蒙版(“include-days”和“include-date”)
包括日期掩码索引文件,它们在指定日期或指定日期之前进行日期设置。
排除日期掩码(“exclude-days”和“exclude-date”)
排除日期蒙版索引文件,它们在指定日期或指定日期之前进行日期标记。
默认情况下,文件日期由元标记信息确定。 如果找不到Meta标记,则根据在搜索机器人下载文件时从服务器接收的HTTP头确定文件的日期。
您指定的每个日期蒙版必须位于单独的行上。
遮罩可以指定以下任一项:
https://www.mydomain.com/products.html
中所示https://www.mydomain.com/products
中所示https://www.mydomain.com/*.html
regexp
。包括和排除日期蒙版都可以通过以下两种方式之一指定日期。 仅当在指定日期或之前创建了匹配的文件时,才应用蒙版:
几天。 例如,假定日期掩码如下:
exclude-days 30 https://www.mydomain.com/docs/archive/)
将返回指定天数。 如果文件在到达日期的当天或之前过期,则应用掩码。
使用YYYY-MM-DD格式的实际日期。 例如,假定日期掩码如下:
include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
如果匹配文档的日期在指定日期或之前,则应用日期掩码。
以下是一个简单的排除日期蒙版示例:
exclude-days 90 https://www.mydomain.com/docs/archive
由于这是排除日期掩码,因此与该模式匹配的任何文件都不会编制索引,并且旧版本或旧版本都为90天。 排除文档时,不会索引任何文本,也不会跟踪该文件中的链接。 文件会被有效忽略。 在此示例中,文件和文件夹可能与指定的URL模式匹配。 请注意,https://www.mydomain.com/docs/archive.html
和https://www.mydomain.com/docs/archive/index.html
均与模式匹配,如果它们已旧90天或更旧,则不进行索引。 要仅与/docs/archive/
文件夹中的文件匹配,日期掩码必须包含尾随斜杠,如下所示:
exclude-days 90 https://www.mydomain.com/docs/archive/
日期蒙版还可与通配符一起使用。 以下排除蒙版告知搜索自动机忽略扩展名为“.pdf”、日期在2011-02-15年或之前的文件。 搜索自动机不会向索引中添加任何匹配的文件。
exclude-date 2011-02-15 *.pdf
包含日期蒙版的外观类似,只向索引添加匹配的文件。 以下包含日期掩码示例告诉搜索机器人从网站/docs/archive/manual/
区域中任何已过期或已过零日的文件索引文本。
include-days 0 https://www.mydomain.com/docs/archive/manual/
包括蒙版和排除蒙版可以协同工作。 例如,您可以通过创建排除日期掩码并包含一个或多个带有包含URL掩码的被排除页面,将网站的大部分排除在索引之外。 如果入口点URL如下:
https://www.mydomain.com/archive/
搜索自动机对/archive/summer/
、/archive/spring/
和/archive/fall/
下的所有页面进行爬网和索引(假定每个文件夹中都有指向archive
文件夹中至少一个页面的链接)。 出现此行为是因为链接路径使搜索自动机能够“查找”/summer/
、/spring/
和/fall/
文件夹中的文件,并且文件夹URL与入口点URL自动生成的包含掩码匹配。
请参阅关于URL入口点。
请参阅配置帐户设置。
您可以选择排除/fall/
文件夹中存在90天以上的所有页面,其中包含排除日期掩码,如下所示:
exclude-days 90 https://www.mydomain.com/archive/fall/
您只能选择性地将/archive/fall/index.html
(不管它的旧版本如何——任何文件0天或更旧版本都匹配)包含在具有以下日期掩码的索引中:
include-days 0 https://www.mydomain.com/archive/fall/index.html
要使上述两个蒙版示例按预期工作,您必须首先列表包含蒙版,如下所示:
include-days 0 https://www.mydomain.com/archive/fall/index.html
exclude-days 90 https://www.mydomain.com/archive/fall/
由于搜索机器人按照指定的顺序遵循方向,因此搜索机器人首先包括/archive/fall/index.html
,然后排除/fall
文件夹中的其余文件。
如果指令的指定方式与下面相反:
exclude-days 90 https://www.mydomain.com/archive/fall/
include-days 0 https://www.mydomain.com/archive/fall/index.html
然后,即使掩码指定应该包含/archive/fall/index.html
,也不会包含。 首先出现的日期蒙版始终优先于稍后在蒙版设置中显示的日期蒙版。 此外,如果搜索自动机遇到与包含日期掩码和排除日期掩码两者匹配的页面,则首先列出的掩码始终优先。
请参阅配置分阶段网站的增量索引。
您可以使用一个或多个空格分隔的关键字限定每个包含蒙版,这些关键字会影响匹配页面的索引方式。
逗号不能作为遮罩和关键字之间的分隔符;只能使用空格。
关键词 |
描述 |
---|---|
noindex |
如果不想为日期在包含蒙版指定的日期或之前的页面上的文本编制索引,请添加
请确保将关键字与遮罩分隔为空格。 上例指定搜索自动机遵循扩展名为“.swf”(10天或更旧)的文件中的所有链接。 但是,它会禁用对包含在这些文件中的所有文本进行索引。 您可能希望确保未为旧文件的文本编制索引,但仍遵循这些文件中的所有链接。 在这种情况下,请将包含日期掩码与“noindex”关键字一起使用,而不是使用排除日期掩码。 |
nofoly |
如果要为日期在包含蒙版指定的日期或之前的页面上的文本编制索引,但您不希望遵循匹配页面的链接,请添加
请确保将关键字与遮罩分隔为空格。 The
|
server-date |
用于包括和排除蒙版。 搜索机器人通常在检查日期掩码之前下载并解析每个文件。 发生此行为是因为某些文件类型可以在文件本身中指定日期。 例如,HTML文档可以包含设置文件日期的meta标签。 如果要根据文件的日期排除许多文件,并且不想在服务器上增加不必要的负载,则可以使用
此关键字指示搜索机器人信任服务器返回的文件的日期,而不是分析每个文件。 例如,如果文档为90天或更早,则以下排除日期掩码会忽略与URL匹配的页,这取决于服务器在HTTP头中返回的日期: 如果服务器返回的日期已过90天或更久,
您不应使用
|
regexp |
用于包括和排除蒙版。 前面的任何日期掩码
如果搜索自动机遇到与排除常规表达式日期掩码匹配的文件,它不会为这些文件编制索引。 如果搜索自动机遇到与包含常规表达式日期蒙版匹配的文件,它将为这些文档建立索引。 例如,假定您具有以下日期掩码: 遮罩告知搜索自动机排除180天或更早的匹配文件。 即,URL中包含“archive”一词的文件。 请参阅常规表达式。 |
您可以使用日期蒙版根据文件的年龄,在客户搜索结果中包含或排除文件。
使用Test Date和Test URL字段测试索引后是否包含文件。
请确保重新构建站点索引,以便您的客户能够看到URL蒙版的结果。
请参阅配置分阶段网站的增量索引。
添加日期蒙版以索引或不索引网站的各个部分
在产品菜单中,单击Settings > Crawling > Date Masks。
(可选)在Date Masks页面的Test Date字段中,输入格式化为YYYY-MM-DD的日期(例如2011-07-25
);在Test URL字段中,输入网站的URL掩码,然后单击Test。
在Date Masks字段中,输入每行一个日期掩码地址。
单击 Save Changes.
(可选)执行下列任一操作:
要访问受HTTP基本身份验证保护的网站部分,可以添加一个或多个口令。
在客户看到“密码”设置的效果之前,您必须重新构建站点索引。
请参阅配置分阶段网站的增量索引。
在Passwords页面上,在单行上键入每个口令。 密码由URL或领域、用户名和密码组成,如下例所示:
https://www.mydomain.com/ myname mypassword
除了使用URL路径(如上所示),您还可以指定领域。
要确定要使用的正确领域,请使用浏览器打开受密码保护的网页,然后查看“输入网络密码”对话框。
领域名称,在本例中为“我的站点领域”。
使用上面的领域名称,您的密码可能如下所示:
My Site Realm myusername mypassword
如果您的网站有多个领域,您可以通过在单独的行上为每个领域输入用户名和密码来创建多个口令,如下例所示:
Realm1 name1 password1
Realm2 name2 password2
Realm3 name3 password3
您可以混合使用包含URL或领域的口令,这样您的口令列表可能如下所示:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
Realm3 name3 password3
Realm4 name4 password4
https://www.mysite.com/path1/path5 name5 password5
https://www.mysite.com/path6 name6 password6
在上述列表中,使用第一个密码,它包含与服务器的身份验证请求相匹配的领域或URL。 例如,即使https://www.mysite.com/path1/path2/index.html
处的文件位于Realm3
中,也会使用name2
和password2
,因为用URL定义的密码列在用领域定义的密码之上。
您可以使用“口令”访问网站中受口令保护的区域,以便进行搜索和索引。
在客户看到密码的添加效果之前,请确保重新构建站点索引
请参阅配置分阶段网站的增量索引。
为访问网站中需要身份验证的区域添加口令
在产品菜单中,单击Settings > Crawling > Passwords。
在Passwords页面的Passwords字段中,输入领域或URL及其关联的用户名和密码(以空格分隔)。
领域密码和URL密码在单独行上的示例:
Realm1 name1 password1
https://www.mysite.com/path1/path2 name2 password2
每行只添加一个密码。
单击 Save Changes.
(可选)执行下列任一操作:
可以使用Content Types选择要对此帐户爬网和索引的文件类型。
您可以选择爬网和索引的内容类型包括PDF文档、文本文档、AdobeFlash电影、来自Microsoft Office应用程序(如Word、Excel和Powerpoint)的文件以及MP3文件中的文本。 在所选内容类型内找到的文本与网站上的所有其他文本一起搜索。
在客户看到“内容类型”设置的效果之前,您必须重新构建站点索引。
请参阅配置分阶段网站的增量索引。
如果在Content Types页面上选择选项Text in MP3 Music Files,将通过以下两种方式之一对MP3文件进行爬网和索引。 第一种也是最常见的方式是通过HTML文件中的锚点href标签进行处理,如下所示:
<a href="MP3-file-URL"></a>
第二种方法是输入MP3文件的URL作为URL入口点。
请参阅关于URL入口点。
MP3文件的MIME类型“audio/mpeg”可识别。
请注意,MP3音乐文件大小可能很大,即使它们通常只包含少量文本。 例如,MP3文件可以选择存储专辑名称、艺术家姓名、歌名、歌曲流派、发布年份和评论等内容。 此信息存储在文件末尾的称为TAG的地方。 包含TAG信息的MP3文件按以下方式编制索引:
请注意,在您的网站上爬网和编制索引的每个MP3文件都计为一页。
如果您的网站包含许多大型MP3文件,则可能超出帐户的索引字节限制。 如果发生这种情况,您可以取消选择Content Types页面上的Text in MP3 Music Files,以阻止对网站上的所有MP3文件进行索引。
如果只想阻止在网站上为某些MP3文件编制索引,可以执行下列操作之一:
用<nofollow>
和</nofollow>
标记环绕链接到MP3文件的锚点标记。 搜索自动机不遵循这些标记之间的链接。
将MP3文件的URL添加为排除蒙版。
请参阅关于URL掩码。
可以使用Content Types选择要对此帐户爬网和索引的文件类型。
您可以选择爬网和索引的内容类型包括PDF文档、文本文档、AdobeFlash电影、来自Microsoft Office应用程序(如Word、Excel和Powerpoint)的文件以及MP3文件中的文本。 在所选内容类型内找到的文本与网站上的所有其他文本一起搜索。
在客户看到“内容类型”设置的效果之前,您必须重新构建站点索引。
请参阅配置分阶段网站的增量索引。
要爬网和索引中文、日文或韩文MP3文件,请完成以下步骤。 然后,在Settings > Metadata > Injections中,指定用于对MP3文件进行编码的字符集。
请参阅关于Injections。
选择要爬网和索引的内容类型
在产品菜单中,单击Settings > Crawling > Content Types。
在Content Types页面上,检查要爬网并在网站上编制索引的文件类型。
单击 Save Changes.
(可选)执行下列任一操作:
您可以使用“连接”来添加最多十个HTTP连接,搜索自动机使用这些连接来为您的网站建立索引。
增加连接数可以显着减少完成爬网和索引所需的时间。 但是,请注意,每个附加连接都会增加服务器上的负载。
您可以通过使用连接来增加Crawler同时使用的HTTP连接数,减少为网站编制索引所花费的时间。 最多可以添加十个连接。
请注意,每个附加连接都会增加服务器上的负载。
添加连接以提高索引速度
在产品菜单中,单击Settings > Crawling > Connections。
在Parallel Indexing Connections页面的Number of Connections字段中,输入要添加的连接数(1-10)。
单击 Save Changes.
(可选)执行下列任一操作:
您可以使用表单提交来帮助您识别和处理网站上的表单。
在网站的搜索和索引过程中,会将遇到的每个表单与您添加的表单定义进行比较。 如果表单与表单定义匹配,则提交表单以进行索引。 如果表单与多个定义匹配,则对于每个匹配的定义,表单将提交一次。
您可以使用Form Submission帮助处理在网站上识别的用于索引的表单。
请确保重新构建站点索引,以便您的客户能够看到更改结果。
请参阅配置分阶段网站的增量索引。
在网站上添加表单定义以索引表单
在产品菜单中,单击Settings > Crawling > Form Submission。
在Form Submission页面上,单击Add New Form。
在Add Form Definition页面上,设置Form Recognition和Form Submission选项。
Form Definition页面的Form Recognition部分中的五个选项用于标识网页中可以处理的表单。
Form Submission部分中的三个选项用于指定随表单提交到Web服务器的参数和值。
每行输入一个确认或提交参数。 每个参数都必须包括名称和值。
选项 |
描述 |
---|---|
表单识别 |
|
页面URL掩码 |
标识包含表单的网页。 要标识在单个页面上显示的表单,请输入该页面的URL,如下例所示: 要标识在多个页面上显示的表单,请指定使用通配符来描述这些页面的URL掩码。 例如,要标识在 您还可以使用常规表达式来标识多个页面。 只需指定
|
操作URL掩码 |
标识操作属性
与页面URL掩码一样,操作URL掩码可以采用单个URL、带通配符的URL或常规表达式。 URL掩码可以是以下任一掩码:
如果您不想为通过URL掩码或操作URL掩码标识的页面上的文本编制索引,或者如果您不希望在这些页面上跟随链接,可以使用
请参阅关于URL入口点。 请参阅关于URL掩码。 |
表单名称蒙版 |
在
网页中的 您可以使用简单名称(
您通常可以将此字段留空,因为表单通常没有名称属性。 |
表单ID蒙版 |
在
网页中的 您可以使用简单名称(
您通常可以将此字段留空,因为表单通常没有名称属性。 |
参数 |
标识包含或不包含指定参数或具有特定值的指定参数的表单。 例如,要标识包含预设为rick_brough@mydomain.com的电子邮件参数、口令参数而非名称参数的表单,您应指定以下参数设置,每行一个: |
表单提交 |
|
覆盖操作URL |
指定表单提交的目标何时与表单的操作属性中指定的内容不同。 例如,当通过JavaScript函数提交表单时,您可以使用此选项,该函数构造的URL值与在表单中找到的URL值不同。 |
覆盖方法 |
指定表单提交的目标何时与表单的action属性中使用的内容不同,以及提交JavaScript更改了方法的时间。 所有表单参数的默认值(
|
参数 |
您可以在表单提交参数前添加前缀
在参数前加前缀时
例如,假定您要提交以下参数:
表单提交参数如下所示: 的方法属性
网页上的 如果
|
单击 Add.
(可选)执行下列任一操作:
如果网站上的表单已更改,或者您只需更改定义,则可以编辑现有表单定义。
请注意,Form Submission页面上没有History功能可还原您对表单定义所做的任何更改。
请确保重新构建站点索引,以便您的客户能够看到更改结果。
请参阅配置分阶段网站的增量索引。
编辑表单定义
在产品菜单中,单击Settings > Crawling > Form Submission。
在Form Submission页面上,单击要更新的表单定义右侧的Edit。
在Edit Form Definition页面上,设置Form Recognition和Form Submission选项。
单击 Save Changes.
(可选)执行下列任一操作:
如果您的网站上不再存在表单,或者您不再希望处理和索引特定表单,则可以删除现有表单定义。
请注意,Form Submission页面上没有History功能可还原您对表单定义所做的任何更改。
请确保重新构建站点索引,以便您的客户能够看到更改结果。
请参阅配置分阶段网站的增量索引。
删除表单定义
在产品菜单中,单击Settings > Crawling > Form Submission。
在Form Submission页面上,单击要删除的表单定义右侧的Delete。
确保选择要删除的正确表单定义。 在下一步中单击Delete时,不显示删除确认对话框。
在Delete Form Definition页面上,单击Delete。
(可选)执行下列任一操作:
使用Index Connector定义用于为XML页面或任何类型源编制索引的其他输入源。
您可以使用数据馈送输入源访问以不同于网站上通常使用的爬网方法之一发现的表单中存储的内容。 对每个文档进行爬网和索引后,都会直接与您网站上的内容页面对应。 但是,数据源来自XML文档或逗号分隔或制表符分隔的文本文件,并包含要索引的内容信息。
XML数据源由XML标准或记录组成,这些标准或记录包含与单个文档对应的信息。 这些单个文档符将添加到索引中。 文本数据馈送包含与单个文档对应的单独新行分隔记录。 这些单个文档也添加到索引中。 无论哪种情况,索引连接器配置都描述如何解释源。 每个配置都描述文件所在的位置以及服务器如何访问它。 配置还描述“映射”信息。 即,如何使用每个记录的项来填充生成索引中的元数据字段。
在将索引连接器定义添加到Staged Index Connector Definitions页面后,可以更改任何配置设置,除外的名称或类型值。
Index Connector页面显示以下信息:
已配置和添加的已定义索引连接器的名称。
已添加的每个连接器的以下数据源类型之一:
是否为下次爬网和索引完成启用连接器。
数据源的地址。
另请参阅关于索引连接器
步骤 |
过程 |
描述 |
---|---|---|
1 |
下载数据源。 |
对于文本和源配置,它只是一个简单的文件下载。 |
2 |
将下载的数据源分解为单个伪文档。 |
对于文本,每行以换行符分隔的文本都对应单个文档,并使用指定的分隔符进行分析,如逗号或制表符。 对于源,每个文档的数据都使用以下形式的常规表达式模式提取: 使用索引连接器添加页上的映射,创建数据的缓存副本,然后为Crawler创建链接列表。 数据存储在本地缓存中,并填充配置的字段。 所解析的数据被写入本地高速缓存。 稍后将读取此缓存,以创建Crawler需要的简单HTML文档。 例如: <title> 元素仅在存在到“标题”元数据字段的映射时生成。 同样, <body> 元素仅在存在到Body元数据字段的映射时生成。 重要说明:不支持为预定义的URL meta标签分配值。 对于所有其他映射,将为在原始文档中找到数据的每个字段生成 <meta> 标记。 每个文档的字段将添加到缓存。 对于写入缓存的每个文档,也会生成一个链接,如以下示例所示: 配置的映射必须有一个字段标识为主键。 此映射构成从缓存读取数据时使用的键。 Crawler可识别URL 索引:方案前缀,然后访问本地缓存的数据。 |
3 |
爬网缓存的文档集。 |
索引:链接将添加到Crawler的挂起列表,并以普通爬网序列进行处理。 |
4 |
处理每个文档。 |
每个链接的键值都与缓存中的一个条目相对应,因此搜索每个链接会导致从缓存中获取该文档的数据。 然后,它将“组合”为HTML图像,并进行处理并添加到索引中。 |
XML配置的索引创建过程与文本和源配置的创建过程类似,只有以下细微更改和例外。
由于XML爬网的文档已分为单个文件,因此上表中的步骤1和步骤2不直接适用。 如果在Index Connector Add页面的Host Address和File Path字段中指定URL,则下载该URL并将其作为普通HTML文档进行处理。 期望下载文档包含<a href="{url}"...
链接的集合,每个链接指向要处理的XML文档。 此类链接将转换为以下表单:
<a href="index:<ic_config_name>?url="{url}">
例如,如果Adobe设置返回了以下链接:
<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a>
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>
在上表中,步骤3不适用,步骤4在搜索和索引时完成。
或者,您也可以将XML文档与通过爬网过程自然发现的其他文档混合使用。 在这种情况下,可以使用重写规则(Settings > Rewrite Rules > Crawl List Retrieve URL Rules)更改XML文档的URL,将其定向到索引连接器。
请参阅关于爬网列表检索URL规则。
例如,假设您有以下重写规则:
RewriteRule (^http.*[.]xml$) index:Adobe?key=$1
此规则将以.xml
结尾的任何URL转换为索引连接器链接。 爬网程序识别并重写index:
URL方案。 下载过程将通过主服务器上的Index Connector Apache服务器重定向。 每个下载的文档都使用与源使用的相同常规表达式模式进行检查。 但是,在这种情况下,制造的HTML文档不会保存在缓存中。 而是直接交给爬虫进行索引处理。
您可以为任何帐户定义多个索引连接器配置。 这些配置会自动添加到Settings > Crawl > URL Entrypoints的下拉列表中,如下图所示:
从下拉列表中选择配置会将值添加到URL入口点列表的末尾。
禁用的索引连接器配置添加到下拉列表时,您无法选择它们。 如果再次选择同一索引连接器配置,则会将其添加到列表的末尾,并删除以前的实例。
要指定增量爬网的索引连接器入口点,可以使用以下格式添加条目:
index:<indexconnector_configuration_name>
如果在“索引连接器”页上找到并启用了每个添加的条目,爬网程序将处理它。
注意:由于每个文档的URL都是使用索引连接器配置名称和文档的主键构建的,因此,在执行增量更新时,请确保使用相同的索引连接器配置名称! 这样做允许Adobe Search&Promote正确更新以前已编制索引的文档。
另请参阅关于URL入口点。
在添加索引连接器时使用设置映射
添加索引连接器时,您可以选择使用功能Setup Maps下载数据源的示例。 检查数据是否适合索引。
如果选择“索引连接器”类型…… |
设置映射功能…… |
---|---|
文本 |
通过先试用制表符,然后使用垂直条( | ),最后用逗号(、)。 如果您在单击设置映射之前已经指定了分隔符值,则会改用该值。 最适合方案的结果是,在Map字段中填充适当的Tag和Field值的猜测。 此外,显示所分析数据的采样。 如果您知道文件包含标题行,请务必在第一行中选择标题。 设置函数使用此信息来更好地标识生成的映射条目。 |
信息源 |
下载数据源并执行简单的XML分析。 生成的XPath标识符显示在Map表的Tag行中,在Fields中显示类似值。 这些行只标识可用数据,不生成更复杂的XPath定义。 但是,它仍然很有帮助,因为它描述了XML数据并标识了Itemtag值。
注意: “设置映射”功能下载整个XML源以执行其分析。 如果文件很大,此操作可能超时。 成功后,此函数将标识所有可能的XPath项,其中许多项不值得使用。 请务必检查生成的映射定义并删除不需要或需要的映射定义。 |
XML |
下载代表个人文档的URL,而非主链接列表。 此单个文档将使用与源一起使用的相同机制进行分析,并显示结果。 单击添加以保存配置之前,请确保将URL更改回主链接列表文档。 |
重要说明:“设置映射”功能可能不适用于大型XML数据集,因为其文件分析器会尝试将整个文件读入内存。因此,您可能会遇到内存不足的情况。 但是,当在索引时处理同一文档时,它不会读入内存。 相反,大型文档会“在旅途中”进行处理,而不会完全在内存中先读取。
在添加索引连接器时使用预览
在添加索引连接器时,您可以选择使用功能Preview验证数据,就像保存数据一样。 它针对配置运行测试,但不将配置保存到帐户。 测试访问配置的数据源。 但是,它将下载缓存写入临时位置;它与索引爬网程序使用的主缓存文件夹不冲突。
预览仅处理由Acct:IndexConnector-文档-最大文档控制的5个预览的默认值。 预览的文档以源形式显示,就像它们呈现给索引爬虫一样。 显示屏类似于Web浏览器中的“视图源”功能。 您可以使用标准导航链接导航文档集中的预览。
预览不支持XML配置,因为此类文档会直接处理,而不会下载到缓存中。
每个索引连接器配置定义一个数据源和映射,以将为该源定义的数据项与索引中的元数据字段相关联。
在新的已启用定义的效果对客户可见之前,请重新构建站点索引。
添加索引连接器定义
在产品菜单中,单击Settings > Crawling > Index Connector。
在Stage Index Connector Definitions页面上,单击Add New Index Connector。
在Index Connector Add页面上,设置所需的连接器选项。 可用的选项取决于您选择的Type。
选项 |
描述 |
---|---|
名称 |
索引连接器配置的唯一名称。 您可以使用字母数字字符。 还允许使用字符“_”和“-”。 |
类型 |
数据源。 您选择的数据源类型会影响在索引连接器添加页上可用的结果选项。 您可以从以下选项中进行选择:
|
数据源类型:文本 |
|
启用 |
将配置“打开”以爬网和索引。 或者,您可以关闭配置以防止搜索和索引。 注意:如果在入口点列表中找到禁用的索引连接器配置,则忽略它们。 |
主机地址 |
指定数据所在的服务器主机的地址。 如果需要,您可以指定数据源文档的完整URI(统一资源标识符)路径,如以下示例所示: 或 URI将被细分为“主机地址”、“文件路径”、“协议”以及(可选)“用户名”和“口令”字段的相应条目。 指定在其中找到数据源文件的主机系统的IP地址或URL地址。 |
文件路径 |
指定简单的平面文本文件、逗号分隔、制表符分隔或其他一致的分隔格式文件的路径。 路径相对于主机地址的根。 |
增量文件路径 |
指定简单的平面文本文件、逗号分隔、制表符分隔或其他一致的分隔格式文件的路径。 路径相对于主机地址的根。 如果指定,则在增量索引操作期间下载并处理此文件。 如果未指定文件,则使用“文件路径”下列出的文件。 |
垂直文件路径 |
指定在垂直更新期间使用的简单平面文本文件、逗号分隔的制表符分隔的格式文件或其他一致分隔的格式文件的路径。 路径相对于主机地址的根。 如果指定,则会在“垂直更新”操作期间下载并处理此文件。 注意:默认情况下,此功能未启用。请与技术支持联系以激活该功能供您使用。 |
删除文件路径 |
指定简单平面文本文件的路径,每行包含一个文档标识符值。 路径相对于主机地址的根。 如果指定,则在增量索引操作期间下载并处理此文件。 此文件中的值用于构建“删除”请求以删除先前已索引的文档。 此文件中的值必须与“完整文件路径”或“增量文件路径”文件中标识为主键的列中的值相对应。 注意:默认情况下,此功能未启用。请与技术支持联系以激活该功能供您使用。 |
协议 |
指定用于访问文件的协议。 您可以从以下选项中进行选择:
|
超时 |
指定FTP、SFTP、HTTP或HTTPS连接的超时(以秒为单位)。 此值必须介于30和300之间。 |
重试 |
指定失败的FTP、SFTP、HTTP或HTTPS连接的最大重试数。 此值必须介于0和10之间。 值为零(0)将阻止重试尝试。 |
编码 |
指定在指定的数据源文件中使用的字符编码系统。 |
Delimiter(分隔符) |
指定要用于描绘指定数据源文件中每个字段的字符。 逗号字符(, )是分隔符的示例。 逗号用作字段分隔符,有助于在指定的数据源文件中分隔数据字段。 选择选项卡? 使用“水平”选项卡字符作为分隔符。 |
第一行中的标题 |
指示数据源文件中的第一行仅包含标题信息,而不包含数据。 |
索引的最小文档数 |
如果设置为正值,则指定下载的文件中所需的最小记录数。 如果接收的记录较少,则索引操作将中止。 注意:默认情况下,此功能未启用。请与技术支持联系以激活该功能供您使用。 注意:此功能仅在完整索引操作期间使用。 |
地图 |
使用列号指定列到元数据的映射。
|
数据源类型:源 |
|
启用 |
将配置“打开”以爬网和索引。 或者,您可以关闭配置以防止搜索和索引。 注意:如果在入口点列表中找到禁用的索引连接器配置,则忽略它们。 |
主机地址 |
指定在其中找到数据源文件的主机系统的IP地址或URL地址。 |
文件路径 |
指定包含多个“行”信息的主XML文档的路径。 路径相对于主机地址的根。 |
增量文件路径 |
指定包含多个“行”信息的增量XML文档的路径。 路径相对于主机地址的根。 如果指定,则在增量索引操作期间下载并处理此文件。 如果未指定文件,则使用“文件路径”下列出的文件。 |
垂直文件路径 |
指定XML文档的路径,该路径包含在垂直更新期间要使用的多个稀疏“行”信息。 路径相对于主机地址的根。 如果指定,则会在“垂直更新”操作期间下载并处理此文件。 注意:默认情况下,此功能未启用。请与技术支持联系以激活该功能供您使用。 |
删除文件路径 |
指定简单平面文本文件的路径,每行包含一个文档标识符值。 路径相对于主机地址的根。 如果指定,则在增量索引操作期间下载并处理此文件。 此文件中的值用于构建“删除”请求以删除先前已索引的文档。 此文件中的值必须与“完整文件路径”或“增量文件路径”文件中标识为主键的列中的值相对应。 注意:默认情况下,此功能未启用。请与技术支持联系以激活该功能供您使用。 |
协议 |
指定用于访问文件的协议。 您可以从以下选项中进行选择:
|
Itemtag |
标识可用于标识您指定的数据源文件中各个XML行的XML元素。 例如,在AdobeXML文档的以下源片段中,Itemtag值是记录: |
索引的最小文档数 |
如果设置为正值,则指定下载的文件中所需的最小记录数。 如果接收的记录较少,则索引操作将中止。 注意:默认情况下,此功能未启用。请与技术支持联系以激活该功能供您使用。 注意:此功能仅在完整索引操作期间使用。 |
地图 |
允许您使用XPath表达式指定XML元素到元数据的映射。
|
数据源类型:XML |
|
启用 |
将配置“打开”以爬网和索引。 或者,您可以关闭配置以防止搜索和索引。 注意:如果在入口点列表中找到禁用的索引连接器配置,则忽略它们。 |
主机地址 |
指定在其中找到数据源文件的主机系统的URL地址。 |
文件路径 |
指定包含链接的主XML文档的路径(
路径相对于主机地址的根。 |
协议 |
指定用于访问文件的协议。 您可以从以下选项中进行选择:
注意:只有在“主机地址”和/或“文件路径”字段中指定了信息时,才使用协议设置。单个XML文档根据其URL规范使用HTTP或HTTPS进行下载。 |
Itemtag |
标识在您指定的数据源文件中定义“行”的XML元素。 |
地图 |
允许您使用列号指定列到元数据的映射。
|
(可选)单击Setup Maps下载数据源的示例。 检查数据是否适合索引。 此功能仅适用于文本和源类型。
(可选)单击Preview以测试配置的实际工作情况。 此功能仅适用于文本和源类型。
单击Add将配置添加到Index Connector Definitions页面和URL Entrypoints页面的Index Connector Configurations下拉列表。
请参阅关于URL入口点。
在Index Connector Definitions页面上,单击rebuild your staged site index。
(可选)在Index Connector Definitions页面上,执行下列任一操作:
可以编辑已定义的现有索引连接器。
并非所有选项都可供您更改,如Type下拉列表中的索引连接器名称或类型。
编辑索引连接器定义
在产品菜单中,单击Settings > Crawling > Index Connector。
在Index Connector页面的Actions列标题下,单击Edit以获取要更改其设置的索引连接器定义名称。
在Index Connector Edit页面上,设置所需的选项。
请参见添加索引连接器定义下的选项表。
单击 Save Changes.
(可选)在Index Connector Definitions页面上,单击rebuild your staged site index。
(可选)在Index Connector Definitions页面上,执行下列任一操作:
可以查看现有索引连接器定义的配置设置。
在将索引连接器定义添加到Index Connector Definitions页面后,无法更改其类型设置。 相反,您必须删除定义,然后添加新定义。
视图索引连接器定义的设置
您可以复制现有索引连接器定义,以用作要创建的新索引连接器的基础。
在复制索引连接器定义时,默认情况下会禁用复制的定义。 要启用或“打开”定义,必须从Index Connector Edit页面编辑该定义,然后选择Enable。
请参阅编辑索引连接器定义。
复制索引连接器定义
在产品菜单中,单击Settings > Crawling > Index Connector。
在Index Connector页面的Actions列标题下,单击Copy以获取要重复其设置的索引连接器定义名称。
在Index Connector Copy页面上,输入定义的新名称。
单击 Copy.
(可选)在Index Connector Definitions页面上,执行下列任一操作:
可以更改现有索引连接器定义的名称。
重命名定义后,检查Settings > Crawling > URL Entrypoints。 您需要确保新定义名称反映在URL Entrypoints页面的下拉列表中。
请参阅添加要索引的多个URL入口点。
重命名索引连接器定义
在产品菜单中,单击Settings > Crawling > Index Connector。
在Index Connector页面的Actions列标题下,单击Rename以查看要更改的索引连接器定义名称。
在Index Connector Rename页面上,在Name字段中输入定义的新名称。
单击 Rename.
单击 Settings > Crawling > URL Entrypoints. 如果列表中存在以前的索引连接器名称,请删除该名称,然后添加新重命名的条目。
请参阅添加要索引的多个URL入口点。 1. (可选)在Index Connector Definitions页面上,执行下列任一操作:
您可以删除不再需要或不再使用的现有索引连接器定义。
删除索引连接器定义