关于脚本索引

使用脚本索引,您无需登录即可编写、更新和维护增量索引选项。 搜索自动机从您服务器上托管的文本文件中读取说明。

使用脚本索引

关于配置脚本增量索引

要使用“脚本索引”,请使用“脚本增量索引配置”页指定位于您服务器上的脚本文件(纯文本文件)的URL。 例如,https://www.mysite.com/indexlist.txt。当您的站点发生更改时,您可以手动或自动向文本文件添加命令块(通过新闻源、股票报价机或其他更改文件中的信息到来触发脚本)。

当脚本的增量索引开始时,搜索自动机读取文本文件并运行在该文件中找到的新命令。 默认情况下,搜索自动机仅处理由文件日期确定的新命令。 除非在配置“脚本索引”时选中​Clear Date,否则搜索自动机将“记住”最近处理的块的日期说明符。

关于脚本文件

您在URL中指定的脚本文件是位于您服务器上的纯文本文件。 您可以对行尾序列使用回车符、换行符或两者。 空行包含零个或多个空格字符,后跟行尾序列。 所有命令均不区分大小写。

文本文件由块组织,块描述搜索机器人在执行脚本增量索引时使用的信息。

块按日期排序,最旧的块位于文本文件的顶部,最近的块位于底部。 每个块以单行date-command和date-specifier命令开始,并以空行分隔符结束,如以下块示例中所示(介于两个命令之间):

使用HTTP 1.1样式时,低于10的所有序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。

Command(命令)

描述

date-command

每个块开始的第一行包含两个日期命令之一:

  • 日期

    使用“date”命令可指示日期说明符将由日期、日期、时间和时区组成。

  • 秒数

    使用指示日期说明符将包含一个时间(以大纪元秒为单位)(例如,784111777)。 使用时,请确保块之间的秒数增加。

date-specifier

date-specifier 命令通常记录块信息添加到文件的顺序日期和时间(date命令)或时间(以纪元秒数(秒命令)表示。 例如:

date Sun, 06 Nov 1994 08:49:37 GMT (HTTP 1.1 style) date Sunday, 06-Nov-94 08:49:37 GMT (HTTP 1.0 style) date Sun Nov 6 08:49:37 1994 (Unix asctime() date style) seconds 784111777 (Unix epoch-seconds style)

使用HTTP 1.1样式时,低于10的所有序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。

搜索自动机“记住”最近处理的块的日期说明符,并仅索引其认为“较新”的信息。 (实时对搜索机器人不重要。 相反,与其他先前处理的时间相比,时间才是关键。)

例如,在搜索机器人读取日期说明符为晚上10:00的块后,它不读取任何在晚上10:00之前记录时间的块,而不管索引操作何时运行。 在最坏情况下,您可能会错误地在日期说明符中输入年份“2040”而不是“2004”。 在这种情况下,搜索机器人在下一个索引操作期间对2040块进行索引,然后拒绝读取任何其他信息块(除非有一个后日期2040)。 如果发生这种情况,请从文本文件中删除所有以前处理的块,单击清除日期,然后将其实时推送。

注释行

以“#”字符开始注释行。

每个注释行必须是自己的行;不能键入行尾注释。

注释行不被视为空行。 它也可以显示在块中的任意位置,甚至在日期或秒命令之前,如以下示例所示:

    #Added by Cathy Read after the Y2K seminar     date Mon, 29 Dec 1999 09:32:20 GMT 

action-command

每个文本块可以包含任意所需数量的操作命令。 以下操作命令选项与标准增量索引的选项相对应:

  • add

    与URL一起使用。 搜索自动机仅对自上次索引操作以来更改的指定URL进行索引。 此外,搜索自动机会遵循包含在指定文档中的链接,并仅对已更改的文档进行索引。

    您可以在URL后 nofollow noindex 关键字,如下例所示:

    add https://www.mydomain.com/ noindex

  • update

    与URL掩码一起使用。 搜索自动机会查找并更新与指定URL蒙版匹配的所有文档。

    您可以在URL后 nofollow noindex 关键字,如下例所示:

    update https://www.mydomain.com/products/

  • include exclude

    与URL掩码一起使用。 搜索自动机根据指定的蒙版类型查找和索引("include")或忽略("exclude")文档。

    例如:

    include https://www.mydomain.com/products/household/lightbulbs*.html

    exclude https://www.mydomain.com/archive/

  • include-date exclude-date

    与URL掩码一起使用。 搜索自动机根据URL和文档日期查找和索引(“include”)或忽略(“exclude”)文档。 有以下类型的蒙版可用:

    • include-days NNN

      搜索自动机将所有与指定的URL蒙版匹配且NNN天或更旧的文档编入索引。

      您可以使用关键字跟随URL掩码 nofollow , noindex 和/或 server-date

    • include-date YYYY-MM-DD

      搜索自动机对与指定的URL掩码匹配且旧或早于日期YYYY-MM-DD的所有文档进行索引,其中“YYYY”是4位年份,“MM”是1位或2位月份(1-12),“DD”是1位或2位日(1-31)。

      您可以使用关键字跟随URL掩码 nofollow , noindex 和/或 server-date

    • exclude-days NNN

      禁用与指定的URL掩码匹配且NN天或更旧的所有文档的索引。

      您可以在URL掩码后使用关键字 server-date

    • exclude-date YYYY-MM-DD

      禁用与指定的URL掩码匹配且旧或旧于日期YYYY-MM-DD的所有文档的索引。

      您可以在URL掩码后使用关键字 server-date

  • delete

    指定URL。 搜索自动机会从URL标识的索引中删除文档。

  • deletemask

    搜索自动机将从与指定URL蒙版匹配的索引中删除文档。

另请参阅关于URL蒙版

脚本文件示例

在下面的脚本文件示例中,如果日期说明符在日期之后是最近处理的块的日期说明符,则搜索自动机处理这些块。 如果是,则执行以下索引操作:

  • 从索引中删除y2k-problems.html

  • no-y2k-problems.html添加到搜索索引中,并且不跟踪no-y2k-problems.html的任何链接。

  • 搜索时,从搜索索引中排除与housewares.htmlightfixtures.html匹配的URL。

  • www.mydomain.com下包含所有其他目录和文档。

  • 更新productsinformation目录中的所有文档,搜索并索引自上次索引操作以来更改的所有子链接。

  • 搜索时,如果URL的日期在1999年1月1日或之前,请排除网站archive部分的URL。

  • 从搜索索引中排除与housewares.htmllightfixtures.html匹配的URL。

  • help目录中为文件编制索引,但不要从这些文件爬网或索引任何链接。

  • 爬网并索引为www.mydomain.com遇到的任何其他文件。

# Start of file. 
# Added by John Smith 
date Sat, 01 Jan 2004 16:05:53 PST 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/ 
delete https://www.mydomain.com/y2k-problems.html 
add https://www.mydomain.com/no-y2k-problems.html nofollow 
 
date Sun, 02 Jan 2004 20:19:08 PST 
# Added by the wire service updater 
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date 
exclude https://www.mydomain.com/housewares.html 
exclude https://www.mydomain.com/lightfixtures.html 
include https://www.mydomain.com/help/ nofollow 
include https://www.mydomain.com/ 
# no add files, just update existing files 
# update all files in the "products" directory 
update https://www.mydomain.com/products/ 
# update all files in the "information" directory 
update regexp ^https://www\.mydomain\.com/information/.*$ 
# End of file.

配置脚本增量索引

您可以指定已创建的脚本,该脚本可以写入、更新和维护增量索引,而无需登录。 搜索自动机从您服务器上托管的文本文件中读取指令以执行增量索引。

配置脚本的增量索引

  1. 在产品菜单上,单击​Index > Scripted Index > Configuration

  2. 在​Scripted Incremental Index Configuration​页面的​Script File URL​中,输入位于您服务器上的文本文件脚本的URL。

    请参阅关于脚本索引

  3. (可选)如果不希望搜索自动机“记住”最近处理的块的日期说明符,请检查​Clear Date

    默认情况下,搜索自动机只处理文本文件中找到的新命令块(由文件的日期确定)。 如果不需要默认值,请选中​Clear Date

  4. 单击 Save Changes.

  5. (可选)执行下列操作之一:

为实时网站设置脚本的增量索引计划

您可以计划脚本式增量索引,以在一天中定期进行。

您选择的基本时间是根据在“帐户设置”中配置的时区本地的。

请参阅配置帐户设置

Web服务器通常安排在半夜停机进行维护。 如果服务器在计划的索引时间内关闭,则索引创建过程将失败。 请确保您选择了Web服务器可用的一天中的某个时间。

索引计划仅适用于实时索引;无法计划已暂存的增量索引。

为实时网站设置脚本的增量索引计划

  1. 在产品菜单上,单击​Index > Scripted Index > Live Schedule
  2. 在​Scripted Incremental Index Schedule​页面的​Read the Scripted Incrementally Indexing File​下拉列表中,选择希望脚本增量索引文本文件运行的频率(以小时或分钟为单位)。
  3. 在​Base Time​下拉列表中,选择要重新生成新脚本增量索引的开始时间。
  4. 单击 Save Changes.

运行实时或分阶段网站的脚本增量索引

您可以使用脚本增量索引为实时或分阶段网站(如频繁更改的页面集合)的“片段”编制索引,而无需登录。

要使用此功能,请确保已配置脚本的增量索引文本文件。

请参阅配置脚本的增量索引

运行实时网站或分阶段网站的脚本增量索引

  1. 在“产品”菜单中,执行下列操作之一:

    • 单击 Index > Scripted Index > Live Index.
    • 单击 Index > Scripted Index > Staged Index.
  2. 单击 Scripted Index Now.

  3. (可选)如果出现索引错误,请单击​View Errors​以视图关联的日志。

查看实时或分阶段网站的脚本增量索引日志

当实时完整脚本索引或分阶段完整脚本索引完成时,您可以视图其关联日志以排除发生的任何错误。

您无法导出日志,也无法保存它们。 但是,在新索引出现之前,日志仍可供查看。

要视图实时网站或分阶段网站的增量索引日志,请执行以下操作

  1. 在“产品”菜单中,执行下列操作之一:

    • 单击 Index > Scripted Index > Live Log.

    • 单击 Index > Scripted Index > Staged Log.

  2. 在日志页面顶部或底部,执行下列任一操作:

    • 使用导航选项​FirstPrevNextLast​或​Go to line​在日志中移动。

    • 使用显示选项​Errors onlyWrap line​或​Show​细化您所看到的内容。

在此页面上