使用脚本索引,您无需登录即可编写、更新和维护增量索引选项。 搜索自动机从您服务器上托管的文本文件中读取说明。
要使用“脚本索引”,请使用“脚本增量索引配置”页指定位于您服务器上的脚本文件(纯文本文件)的URL。 例如,https://www.mysite.com/indexlist.txt
。当您的站点发生更改时,您可以手动或自动向文本文件添加命令块(通过新闻源、股票报价机或其他更改文件中的信息到来触发脚本)。
当脚本的增量索引开始时,搜索自动机读取文本文件并运行在该文件中找到的新命令。 默认情况下,搜索自动机仅处理由文件日期确定的新命令。 除非在配置“脚本索引”时选中Clear Date,否则搜索自动机将“记住”最近处理的块的日期说明符。
您在URL中指定的脚本文件是位于您服务器上的纯文本文件。 您可以对行尾序列使用回车符、换行符或两者。 空行包含零个或多个空格字符,后跟行尾序列。 所有命令均不区分大小写。
文本文件由块组织,块描述搜索机器人在执行脚本增量索引时使用的信息。
块按日期排序,最旧的块位于文本文件的顶部,最近的块位于底部。 每个块以单行date-command和date-specifier命令开始,并以空行分隔符结束,如以下块示例中所示(介于两个命令之间):
使用HTTP 1.1样式时,低于10的所有序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。
Command(命令) |
描述 |
---|---|
date-command |
每个块开始的第一行包含两个日期命令之一:
|
date-specifier |
date-specifier 命令通常记录块信息添加到文件的顺序日期和时间(date命令)或时间(以纪元秒数(秒命令)表示。 例如: 使用HTTP 1.1样式时,低于10的所有序号日期都需要前导零。 例如,11月6日是11月06日,而不是11月6日。 搜索自动机“记住”最近处理的块的日期说明符,并仅索引其认为“较新”的信息。 (实时对搜索机器人不重要。 相反,与其他先前处理的时间相比,时间才是关键。) 例如,在搜索机器人读取日期说明符为晚上10:00的块后,它不读取任何在晚上10:00之前记录时间的块,而不管索引操作何时运行。 在最坏情况下,您可能会错误地在日期说明符中输入年份“2040”而不是“2004”。 在这种情况下,搜索机器人在下一个索引操作期间对2040块进行索引,然后拒绝读取任何其他信息块(除非有一个后日期2040)。 如果发生这种情况,请从文本文件中删除所有以前处理的块,单击清除日期,然后将其实时推送。 |
注释行 |
以“#”字符开始注释行。 每个注释行必须是自己的行;不能键入行尾注释。 注释行不被视为空行。 它也可以显示在块中的任意位置,甚至在日期或秒命令之前,如以下示例所示: |
action-command |
每个文本块可以包含任意所需数量的操作命令。 以下操作命令选项与标准增量索引的选项相对应:
|
另请参阅关于URL蒙版。
在下面的脚本文件示例中,如果日期说明符在日期之后是最近处理的块的日期说明符,则搜索自动机处理这些块。 如果是,则执行以下索引操作:
从索引中删除y2k-problems.html
。
将no-y2k-problems.html
添加到搜索索引中,并且不跟踪no-y2k-problems.html
的任何链接。
搜索时,从搜索索引中排除与housewares.htm
和lightfixtures.htm
l匹配的URL。
在www.mydomain.com
下包含所有其他目录和文档。
更新products
和information
目录中的所有文档,搜索并索引自上次索引操作以来更改的所有子链接。
搜索时,如果URL的日期在1999年1月1日或之前,请排除网站archive
部分的URL。
从搜索索引中排除与housewares.html
和lightfixtures.html
匹配的URL。
在help
目录中为文件编制索引,但不要从这些文件爬网或索引任何链接。
爬网并索引为www.mydomain.com
遇到的任何其他文件。
# Start of file.
# Added by John Smith
date Sat, 01 Jan 2004 16:05:53 PST
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/
delete https://www.mydomain.com/y2k-problems.html
add https://www.mydomain.com/no-y2k-problems.html nofollow
date Sun, 02 Jan 2004 20:19:08 PST
# Added by the wire service updater
exclude-date 1999-01-01 https://www.mydomain.com/archive server-date
exclude https://www.mydomain.com/housewares.html
exclude https://www.mydomain.com/lightfixtures.html
include https://www.mydomain.com/help/ nofollow
include https://www.mydomain.com/
# no add files, just update existing files
# update all files in the "products" directory
update https://www.mydomain.com/products/
# update all files in the "information" directory
update regexp ^https://www\.mydomain\.com/information/.*$
# End of file.
您可以指定已创建的脚本,该脚本可以写入、更新和维护增量索引,而无需登录。 搜索自动机从您服务器上托管的文本文件中读取指令以执行增量索引。
配置脚本的增量索引
在产品菜单上,单击Index > Scripted Index > Configuration。
在Scripted Incremental Index Configuration页面的Script File URL中,输入位于您服务器上的文本文件脚本的URL。
请参阅关于脚本索引。
(可选)如果不希望搜索自动机“记住”最近处理的块的日期说明符,请检查Clear Date。
默认情况下,搜索自动机只处理文本文件中找到的新命令块(由文件的日期确定)。 如果不需要默认值,请选中Clear Date。
单击 Save Changes.
(可选)执行下列操作之一:
您可以计划脚本式增量索引,以在一天中定期进行。
您选择的基本时间是根据在“帐户设置”中配置的时区本地的。
请参阅配置帐户设置。
Web服务器通常安排在半夜停机进行维护。 如果服务器在计划的索引时间内关闭,则索引创建过程将失败。 请确保您选择了Web服务器可用的一天中的某个时间。
索引计划仅适用于实时索引;无法计划已暂存的增量索引。
为实时网站设置脚本的增量索引计划
您可以使用脚本增量索引为实时或分阶段网站(如频繁更改的页面集合)的“片段”编制索引,而无需登录。
要使用此功能,请确保已配置脚本的增量索引文本文件。
请参阅配置脚本的增量索引。
运行实时网站或分阶段网站的脚本增量索引
在“产品”菜单中,执行下列操作之一:
单击 Scripted Index Now.
(可选)如果出现索引错误,请单击View Errors以视图关联的日志。
当实时完整脚本索引或分阶段完整脚本索引完成时,您可以视图其关联日志以排除发生的任何错误。
您无法导出日志,也无法保存它们。 但是,在新索引出现之前,日志仍可供查看。
要视图实时网站或分阶段网站的增量索引日志,请执行以下操作
在“产品”菜单中,执行下列操作之一:
单击 Index > Scripted Index > Live Log.
单击 Index > Scripted Index > Staged Log.
在日志页面顶部或底部,执行下列任一操作:
使用导航选项First、Prev、Next、Last或Go to line在日志中移动。
使用显示选项Errors only、Wrap line或Show细化您所看到的内容。