关于增量索引

您可以使用增量索引为实时网站或分阶段网站(如频繁更改的页面集合)的“片段”编制索引。

使用增量索引

增量索引只需几秒钟即可执行,对于需要数小时才能完全索引的大容量网站非常有用。

生成增量索引时,将显示状态信息,如开始时间、已用时间和索引过程中的错误。 还将显示有关上一个索引状态的信息。

您可以随时停止或重新启动增量索引过程。

新增索引构建于您的实时网站时,客户可以继续使用您上次的增量索引搜索您的网站。

配置分阶段网站的增量索引

您可以通过指定网站URL和URL蒙版来配置要包含在增量索引中的网站页面。

配置分阶段网站的增量索引

  1. 在产品菜单上,单击​Index > Incremental Index > Configuration

  2. 在​Incremental Index Configuration​页面上,使用各种字段指定要索引的页面。

    字段

    描述

    添加或更新URL

    指定URL。

    搜索自动机仅对自您上次编制索引以来已更改的指定文档进行索引。

    此外,搜索自动机会遵循包含在指定文档中的链接,并仅对已更改的文档进行索引。

    此字段必须仅包含文档URL,而不包含蒙版,如以下示例中所示:

    https://www.mydomain.com/products/new.html

    您可以在URL中使用以下关键字:

    • noindex

      如果不想为页面上与指定URL匹配的文本编制索引,但想要跟踪页面链接,请添加 noindex 在URL之后,如下例所示:

      https://www.mydomain.com/products/new.html noindex

      确保您 noindex ,来自带空格的URL;逗号不是有效的分隔符。

    • nofollow

      如果要为页面上与指定URL匹配的文本编制索引,但不希望跟踪页面链接,请添加 nofollow 在URL之后,如下例所示:

      https://www.mydomain.com/products/new.html nofollow

      确保您 nofollow ,来自带空格的URL;逗号不是有效的分隔符。

    查找和更新URL蒙版

    指定简单的URL蒙版 — 完整路径、部分路径或使用通配符或常规表达式的路径。

    搜索自动机只查找自您上次编制索引以来已更改的所有匹配文档和索引。

    此外,搜索自动机会跟踪包含在匹配文档中的链接,并仅对那些已更改的页面进行索引。 例如:

    https://www.mydomain.com/products/household/*.html

    您还可以使用常规表达式,如下例所示:

    regexp ^https://www\.mydomain\.com/products/household/.*\.html$

    请参阅常规表达式

    您还可以使用关键字 nofollow noindex ,如上面的添加或更新URL 中所述。

    包含和排除URL蒙版

    指定简单包括或排除URL蒙版 — 完整路径、部分路径或使用通配符或常规表达式的路径。

    搜索自动机根据指定的蒙版类型查找和索引("include")或忽略("exclude")文档。

    在为站点编制索引时,将按照外观的顺序进行指示。 例如,蒙版的以下列表:

    include https://www.mydomain.com/products/household/lightbulbs*.html

    exclude https://www.mydomain.com/products/

    索引页面 lightbulbs1.html lightbulbs2.html 。 但是,它不会为产品目录下列出的任何其他页面编制索引。

    首先显示的URL蒙版始终优先于稍后在列表中显示的URL蒙版。 此外,如果搜索自动机遇到与包含蒙版和排除蒙版匹配的文档,则首先列出的蒙版优先。

    您还可以使用关键字 nofollow noindex ,如上面的添加或更新URL 中所述。

    请参阅关于URL蒙版

    包含和排除日期蒙版

    指定简单包含或排除日期蒙版 — 完整路径、部分路径或使用通配符或常规表达式的路径。

    搜索自动机根据URL和文档日期查找和索引(“include”)或忽略(“exclude”)文档。

    您可以使用以下类型的日期蒙版:

    • include-days NNN

      搜索自动机将所有与指定的URL蒙版匹配且NNN天或更旧的文档编入索引。

      您可以使用以下一个或多个关键字跟随URL掩码:

      • nofollow
      • noindex
      • server-date

      例如,以下掩码包括/archive/support文件夹中0天或更早的所有文档:

      include-days 0 https://www.mydomain.com/archive/support/

    • include-date YYYY-MM-DD

      搜索自动机可对与指定URL蒙版匹配且旧或早于YYYY-MM-DD日期的所有文档进行索引。

      您可以使用以下一个或多个关键字跟随URL掩码:

      • nofollow
      • noindex
      • server-date

      以下蒙版示例包括2011年7月25日或之前/archive/文件夹中的所有文档:

      include-date 2011-07-25 https://www.mydomain.com/archive/

    • exclude-days NNN

      禁用所有与指定的URL掩码匹配且NN天或更旧的文档的索引。

      (可选)您可以按关键字遵循URL掩码 server-date

      下面的蒙版示例从索引中排除所有90天或更旧的PDF文件:

      exclude-days 90 *.pdf

    • exclude-date YYYY-MM-DD

      禁用与指定的URL掩码匹配且旧或早于日期YYYY-MM-DD的所有文档的索引。

      (可选)您可以按关键字遵循URL掩码 server-date

      以下蒙版示例不包括2004年4月23日或之前/archive/文件夹中的所有文档:

      exclude-date 2004-04-23 https://www.mydomain.com/archive/

    请参阅关于日期蒙版

    删除URL

    指定URL。

    搜索自动机会查找并删除搜索索引中的指定文档。 如果指定的页面已在您的搜索索引中,则自动机会在添加或更新任何其他页面之前将其删除。

    此字段必须仅包含文档URL,而不包含蒙版。

    查找和删除URL蒙版

    指定简单的URL蒙版 — 完整路径、部分路径或使用通配符或常规表达式的蒙版。

    如果指定的URL掩码与搜索索引中的页面匹配,则搜索自动机会在添加或更新任何其他页面之前删除这些页面。 例如:

    https://www.mydomain.com/products/1998/household/*

    您还可以使用常规表达式,如下例所示:

    regexp ^https://www\.mydomain\.com/products/199[567]/.*$

    请参阅常规表达式

  3. 单击 Save Changes.

  4. (可选)执行下列操作之一:

设置实时网站的增量索引计划

您可以选择增量索引频率以及用于爬网和更新增量索引的基本时间。

您选择的时间是根据在“帐户设置”中配置的时区本地的。

请参阅配置帐户设置

Web服务器通常安排在半夜停机进行维护。 如果服务器在计划的索引时间内关闭,则索引创建过程将失败。 请确保您选择了Web服务器可用的一天中的某个时间。

索引计划仅适用于实时索引;无法计划分阶段索引。

为实时网站设置增量索引计划

  1. 在产品菜单上,单击​Index > Incremental Index > Live Schedule
  2. 在​Incremental Index Schedule​页面的​Incrementally Index​下拉列表中,选择以小时或分钟为单位的索引频率。
  3. 在​Base Time​下拉列表中,选择要重新生成新增量索引的开始时间。
  4. 单击 Save Changes.

运行实时或分阶段网站的增量索引

您可以使用增量索引为实时网站或分阶段网站(如频繁更改的页面集合)的“片段”编制索引。

要运行实时或分阶段网站的增量索引,请执行以下操作

  1. 在“产品”菜单中,执行下列操作之一:

    • 单击 Index > Incremental Index > Live Index.

    • 单击 Index > Incremental Index > Staged Index.

  2. 单击 Incremental Index Now.

  3. (可选)如果出现索引错误,请单击​View Errors​以视图关联的日志。

查看实时或分阶段网站的增量索引日志

当实时增量索引或分阶段增量索引完成时,您可以视图其关联日志以排除发生的任何错误。

您无法导出日志,也无法保存它们。 在新索引出现之前,日志仍可供查看。

要视图实时网站或分阶段网站的增量索引日志,请执行以下操作

  1. 在“产品”菜单中,执行下列操作之一:

    • 单击 Index > Incremental Index > Live Log.

    • 单击 Index > Incremental Index > Staged Log.

  2. 在日志页面顶部或底部,执行下列任一操作:

    • 使用导航选项​FirstPrevNextLast​或​Go to line​在日志中移动。

    • 使用显示选项​Errors onlyWrap line​或​Show​细化您所看到的内容。

在此页面上