关于脚本索引

使用脚本索引,您无需登录即可编写、更新和维护增量索引选项。 搜索自动机从服务器上托管的文本文件读取说明。

使用脚本索引

关于配置脚本增量索引

要使用脚本索引,请使用“脚本的增量索引配置”页指定位于服务器上的脚本文件(纯文本文件)的URL。 例如,https://www.mysite.com/indexlist.txt。在站点发生变化时,您可以手动或自动向文本文件添加命令块(新闻源、股票报价机或其他更改过的文件中的信息到来会触发脚本)。

当脚本的增量索引开始时,搜索自动机读取文本文件并运行在该文件中找到的新命令。 默认情况下,搜索自动机只处理新命令,这些命令由文件日期决定。 除非在配置“脚本索引”时检查​Clear Date,否则搜索自动机“记住”最近处理的块的日期说明符。

关于脚本文件

您在URL中指定的脚本文件是位于您服务器上的纯文本文件。 您可以对行尾序列使用回车和/或行源。 空行包含零个或多个空格字符,后跟行尾序列。 所有命令均不区分大小写。

文本文件以块的形式进行组织,块描述搜索机器人在执行脚本增量索引时使用的信息。

块按日期排序,文本文件顶部有最旧的块,底部有最新的块。 每个块以单行date-command和date-specifier命令开头,并以空行分隔符结尾,如以下块示例所示(中间是几个命令):

使用HTTP 1.1样式时,所有低于10号的序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。

Command(命令)

描述

date-command

每个块的第一行开始有两个日期命令之一:

  • 日期

    使用“日期”命令指示日期说明符将由日、日、时和时区组成。

  • 秒数

    使用指示日期说明符将包含一个时间(以纪元秒为单位)(例如,784111777)。 使用时,确保块之间的秒数增加。

date-specifier

日期说明符命令通常记录将块信息添加到文件的顺序日期和时间(date命令)或时间(以纪元秒为单位)。 例如:

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

使用HTTP 1.1样式时,所有低于10号的序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。

搜索自动机“记住”最近处理的块的日期说明符,并仅索引其认为“较新”的信息。 (实时对搜索机器人并不重要。 相反,与其他先前处理的时间相比,时间才是重要的。)

例如,搜索机器人在读取日期说明符为晚上10:00的块后,不会读取记录晚上10:00之前时间的任何块,而不管索引操作何时运行。 在最坏的情况下,您可能会错误地在日期说明符中输入年份“2040”而不是“2004”。 在这种情况下,搜索机器人在下一个索引操作期间对2040块进行索引,然后拒绝读取任何其他信息块(除非有一个后日期2040)。 如果出现这种情况,请从文本文件中删除所有以前处理过的块,单击清除日期,然后将其实时推送。

注释行

以“#”字符开始注释行。

每个注释行必须是它自己的行;不能键入行尾注释。

注释行不被视为空行。 它还可以显示在块中的任意位置,甚至在日期或秒命令之前,如下例所示:

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

操作命令

每个文本块可以包含任意所需数量的操作命令。 以下操作命令选项与标准增量索引的选项相对应:

  • add

    与URL配合使用。 搜索自动机仅对自上次索引操作以来已更改的指定URL建立索引。 此外,搜索自动机会遵循包含在指定文档中的链接,并仅对已更改的文档进行索引。

    您可以使用 nofollow noindex 关键字,如下例所示:

    add https://www.mydomain.com/ noindex

  • update

    与URL掩码一起使用。 搜索自动机会查找并更新与指定URL掩码匹配的所有文档。

    您可以使用 nofollow noindex 关键字,如下例所示:

    update https://www.mydomain.com/products/

  • include exclude

    与URL掩码一起使用。 搜索自动机根据指定的蒙版类型查找和索引(“include”)或忽略(“exclude”)文档。

    例如:

    include https://www.mydomain.com/products/household/lightbulbs*.html

    exclude https://www.mydomain.com/archive/

  • include-date exclude-date

    与URL掩码一起使用。 搜索自动机根据URL和文档日期查找和索引(“include”)或忽略(“exclude”)文档。 有以下类型的蒙版可用:

    • include-days NNN

      搜索自动机为与指定URL掩码匹配且版本为NNN(天数)或更高的所有文档建立索引。

      您可以使用关键字遵循URL掩码 nofollow , noindex 和/或 server-date

    • include-date YYYY-MM-DD

      搜索自动机对与指定URL掩码匹配且旧文档或旧日期YYYY-MM-DD的所有进行索引,其中“YYYY”是4位数年份,“MM”是1位或2位月份(1-12),“DD”是1位或2位日期(1-31)。

      您可以使用关键字遵循URL掩码 nofollow , noindex 和/或 server-date

    • exclude-days NNN

      禁用所有与指定URL掩码匹配且为NN天或更旧文档的索引。

      您可以使用关键字跟随URL掩码 server-date

    • exclude-date YYYY-MM-DD

      禁用所有与指定URL掩码匹配且旧文档或旧日期YYYY-MM-DD数据相同的索引。

      您可以使用关键字跟随URL掩码 server-date

  • delete

    指定URL。 搜索自动机从URL标识的索引中删除文档。

  • deletemask

    搜索自动机从与指定URL掩码匹配的索引中删除文档。

另请参阅关于URL掩码

脚本文件示例

在下面的脚本文件示例中,如果日期说明符过后是最近处理的块的日期说明符,则搜索机器人将处理这些块。 如果是这样,则执行以下索引操作:

  • 从索引中删除y2k-problems.html

  • no-y2k-problems.html添加到搜索索引中,并且不跟踪no-y2k-problems.html的任何链接。

  • 搜索时,从搜索索引中排除与housewares.htmlightfixtures.html匹配的URL。

  • 包括www.mydomain.com下的所有其他目录和文档。

  • 更新productsinformation目录内的所有文档,搜索并索引自上次索引操作以来更改的所有子链接。

  • 搜索时,如果URL的日期在1999年1月1日或之前,请排除网站archive部分的URL。

  • 从搜索索引中排除与housewares.htmllightfixtures.html匹配的URL。

  • help目录中的文件编制索引,但不要从这些文件爬网或索引任何链接。

  • 爬网并索引为www.mydomain.com遇到的任何其他文件。

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

配置脚本增量索引

您可以指定已创建的脚本,该脚本可以写入、更新和维护增量索引,无需登录。 搜索自动机从服务器上托管的文本文件中读取指令以执行增量索引。

配置脚本增量索引

  1. 在产品菜单中,单击​Index > Scripted Index > Configuration

  2. 在​Scripted Incremental Index Configuration​页面的​Script File URL​中,输入位于服务器上的文本文件脚本的URL。

    请参阅关于脚本索引

  3. (可选)如果不希望搜索自动机“记住”最近处理的块的日期说明符,请检查​Clear Date

    默认情况下,搜索自动机只处理文本文件中找到的新命令块,这由文件的日期决定。 如果不希望使用默认值,请检查​Clear Date

  4. 单击 Save Changes.

  5. (可选)执行下列操作之一:

为实时网站设置脚本式增量索引计划

您可以计划脚本式增量索引创建,以在一天中定期进行。

您选择的基本时间根据在“帐户设置”中配置的时区是本地的。

请参阅配置帐户设置

Web服务器通常安排在半夜停机进行维护。 如果服务器在计划的索引时间内关闭,则索引编制过程将失败。 请确保选择一天中有Web服务器可用的时间。

索引计划只适用于您的实时索引;无法计划已暂存的增量索引。

为实时网站设置脚本的增量索引计划

  1. 在产品菜单中,单击​Index > Scripted Index > Live Schedule
  2. 在​Scripted Incremental Index Schedule​页面的​Read the Scripted Incrementally Indexing File​下拉列表中,选择希望脚本增量索引文本文件运行的频率(以小时或分钟为单位)。
  3. 在​Base Time​下拉列表中,选择要重新生成新脚本增量索引的开始时间。
  4. 单击 Save Changes.

运行实时或分阶段网站的脚本增量索引

您可以使用脚本增量索引为实时网站或分阶段网站的“片段”(如频繁更改的页面的集合)编制索引,所有这些都无需登录。

要使用此功能,请确保已配置脚本的增量索引文本文件。

请参阅配置脚本增量索引

运行实时网站或分阶段网站的脚本增量索引

  1. 在产品菜单中,执行下列操作之一:

    • 单击 Index > Scripted Index > Live Index.
    • 单击 Index > Scripted Index > Staged Index.
  2. 单击 Scripted Index Now.

  3. (可选)如果出现索引错误,请单击​View Errors​以视图相关日志。

查看实时或分阶段网站的脚本增量索引日志

当实时完整脚本索引或分阶段完整脚本索引完成时,您可以视图其关联日志以排除出现的任何错误。

无法导出日志,也无法保存它们。 但是,在出现新索引之前,日志仍可供查看。

视图实时网站或分阶段网站的增量索引日志

  1. 在产品菜单中,执行下列操作之一:

    • 单击 Index > Scripted Index > Live Log.

    • 单击 Index > Scripted Index > Staged Log.

  2. 在日志页面的顶部或底部,执行下列任一操作:

    • 使用导航选项​FirstPrevNextLast​或​Go to line​在日志中移动。

    • 使用显示选项​Errors onlyWrap line​或​Show​细化您看到的内容。

在此页面上