常见问题解答

AdobeFlash

一个常见问题页,讨论对网站上SWF文件的索引和搜索的支持。

以下是有关SWF文件的常见问题:

何时对SWF文件进行爬网和索引?

如果SWF文件包含在HTML页的embed或object标签中,则会对其进行爬网和索引,如下例所示:

<embed src="Flash-file-URL">

<object>
<param name=movie value="Flash-file-URL">
</object>

如果将文件URL列表为入口点,也会识别SWF文件。

请参阅添加要索引的多个URL入口点

为SWF文件编制索引时必须做什么?

要对SWF文件进行爬网和索引,请选择内容类型​Adobe Flash Movies(Settings > Crawling > Content Types)。

只要Flash文件是从HTML文档中的<embed>标记或<object>标记引用的,就会索引文本,并爬网文件中列出的所有URL。

如果文件未从<embed>标签或<object>标签引用,则可以将SWF文件列表到HTML文档的<a href=...>标签中,或作为URL入口点。

请参阅添加要索引的多个URL入口点

如何识别SWF文件?

SWF文件由以下MIME类型标识:

application/x-shockwave-flash

SWF文件也可以用application/octet-stream"或text/plain MIME类型识别,前提是文件扩展名为.swf。

配置错误的服务器可能会对SWF文件使用其他MIME类型。 如果搜索和索引SWF文件时遇到问题,请务必检查服务器配置。

如何对SWF文件编制索引?

包含在SWF文件中的文本将作为<body>文本在封闭的HTML页中进行索引。 如果搜索结果找到嵌入的SWF文件中包含的文本,则结果实际链接到封闭的HTML页,而不是SWF文件。 这样,SWF文件就会显示在正确的上下文中。

如果SWF文件包含URL作为“加载影片”动作,则引用的SWF文件中的文本将作为封闭HTML页的一部分进行索引。

如果SWF文件包含URL作为“Get URL”操作,则稍后将对URL进行爬网和索引,就像HTML <a href=...>引用稍后被爬网和索引一样。

如果SWF文件作为URL入口点列出,则SWF文件文本将作为单页索引。 从入口点SWF链接(直接链接到影片,而不是包含在内的HTML页)中查找文本的搜索结果。

请参阅添加要索引的多个URL入口点

SWF文件是否计为页面?

否. SWF文件被视为其封闭HTML页的一部分。 SWF文件中包含的所有“加载电影”URL也被视为封闭的HTML页的一部分。 因此,从HTML页引用的SWF文件不计为帐户页面总数的“页面”。

如果SWF文件列为URL入口点,则该SWF文件和该SWF文件中列出的所有“加载电影”URL将计为帐户页面总数的一个“页面”。

如何防止为单个SWF文件编制索引?

要防止对SWF文件进行索引,可以向封闭的HTML文档添加robots meta标签(<meta name="ROBOTS" content="NOINDEX">)或<noindex>标签。 即包含<embed><object>标签的文档。

您还可以使用robots meta标签(<meta name="ROBOTS" content="NOFOLLOW">)来阻止SWF文件中包含的以下URL。 如果封闭的HTML文档已禁用以下功能,则SWF文件中列为“获取URL”操作的URL将不跟随。

如何防止在我的网站上索引SWF文件?

要禁用SWF索引,请取消选择内容类型​Adobe Flash Movies(Settings > Crawling > Content Types)。

您还可以选择使用URL Masks禁用SWF文件的索引。

请参阅将URL蒙版添加到……的索引部分或不是索引部分……

要禁用SWF索引,请输入以下URL掩码之一:

  • exclude *.swf (如果您不使用常规表达式)
  • exclude regexp ^.*\.swf$ (如果您使用常规表达式)

请参阅常规表达式

为什么我无法在我的网站上搜索中文、日文或韩文SWF文件?

网站搜索/促销从使用AdobeFlash创建的SWF文件获取UTF-8。 UTF-8不包含任何语言指示。 如果选择了内容类型​Adobe Flash Movies(Settings > Crawling > Content Types),则必须使用元数据注入指定SWF文件使用的语言。

请参阅添加字段注入定义

旧版SWF文件也不指定字符集。 如果选择了SWF内容类型​Adobe Flash Movies(Settings > Crawling > Content Types),则必须使用元数据注入指定SWF文件中使用的字符集。

常规搜索

一个常见问题解答页面,讨论网站搜索/销售如何帮助访问您网站的客户找到其所寻找的内容。

以下是有关常规搜索的常见问题:

以下是有关搜索功能的常见问题:

是否必须安装任何软件才能使用网站搜索/促销?

否. 这是网站搜索/促销的主要优势。 该引擎是一个专业应用程序,完全托管并维护在我们的高性能服务器上。 这使软件比其他搜索解决方案更易于使用。 您唯一需要做的就是向页面添加少量HTML代码,以便网站的客户可以输入搜索。 网站搜索/促销将处理所有其余内容。

当我的站点超出页面限制时,会出现什么情况?

我们继续为您的搜索提供服务,以便您的访客可以无中断地搜索您的网站。 要查看您的网站是否超出页面限制,请查看您的“完整索引”状态或“实时日志”。

请参阅关于完整索引

请参阅查看实时或分阶段的完整索引日志……

如何更改发送每周报告的电子邮件地址?

每周报告将发送给每个活动帐户的所有者。 可以通过单击​Settings > My Profile > Personal Information​来更改电子邮件地址。 如果您有多个活动的搜索帐户,则所有新闻稿都会发送到新地址。

请参阅配置您的个人用户信息

我的客户信息在网站搜索/销售方面的安全性如何?

网站搜索/促销是安全、快速、稳定且易用的。 您不会被迫使用Cookies(尽管您可以使用)来使用我们的产品,并且敏感信息(如密码)永远不会放在任何URL链接上,以后可以从您的浏览器中检索到这些链接。

我的客户信息的隐私如何?

Adobe致力于尊重其客户和访客的隐私。 请参阅Adobe隐私中心

能否在搜索结果页面上显示我自己的横幅广告?

是. 您可以控制搜索结果的外观和内容。 在您网站的搜索结果模板中,您可以创建指向您自己的横幅交换网络(如LinkExchange或SmartClicks)的链接。 您的访客所做的任何点击均正确计入您的横幅交换帐户。

是否可以自定义网站的搜索结果?

是. 这是网站搜索/促销的独家功能。 利用我们先进的模板技术和对HTML的了解,您可以准确控制搜索结果的显示方式。

请参阅搜索模板标记

您自己的服务器与网站搜索/促销服务器之间的过渡对您的客户而言是完全无缝和不可见的。 如果您不了解HTML或没有时间创建自定义模板,则可以从Adobe内部的专业Web开发人员团队创建的各种极具吸引力的、随时可用的模板中进行选择。

能否查看客户在我的网站上搜索的内容?

是. 我们会在您网站上对过去两个月中由访客进行的搜索进行搜索统计。 您可以随时在产品菜单的“报告”下查看这些统计数据。 搜索报告可为您提供有关访客在您网站上查找哪些内容的重要信息。 您可以使用此信息来改进设计或调整网站搜索/促销引擎以更好地为访客服务。

我如何控制哪些内容类型(PDF、文本、Flash、MP3和Microsoft Office)被索引和搜索?

您可以轻松配置帐户,以启用或禁用在PDF文档、纯文本文档、Flash电影、MP3文件或Microsoft Office文档中找到的文本的索引和搜索。

这些设置在Staged Content Types页面上受控。

请参阅关于内容类型

是否支持通过基于ASP、JSP、PHP、CFM或Perl的内容动态生成网页?

静态或动态生成的HTML网页将进行索引,包括从数据库或任何其他后端进程构建的页面。 由于浏览器看到的HTML代码已编制索引,因此只要这些后端架构导致HTML页面,您就可以在网站上使用站点搜索/促销。

搜索自动机从Account Settings中指定的网站地址的第一页开始,对您的网站进行爬网,并跟踪从页面到页面的链接。

请参阅配置帐户设置

当搜索自动机对您网站的所有页面进行爬网和索引时,您可以使用搜索引擎搜索您的网站。 换句话说,如果动态生成的文档与其他页面的链接一起织入您的网站,搜索自动机仍然可以爬网并索引动态内容。

在对网站内容进行爬网和索引后,您网站的客户可以搜索索引内容中的信息。

如何使用同义词来改进网站的搜索结果?

您可以在希望访客查找与其搜索查询相关的页面时使用同义词。

例如,假设您的网站上有一个页面包含要销售的产品的价格列表。 但是,在检查网站搜索/销售提供的搜索报表后,您会发现客户在搜索中查找“成本”、“费用”、“费用”或“费用”。 这些词不会在搜索结果中显示您的价格列表页。 使用Dictionaries中的Add Synonyms功能,您可以指定这些单词都是同义词,而且您的客户可以找到您的价格列表,而不管他们使用哪个搜索词。

请参阅关于字典

我是否可以控制搜索结果的顺序?

是. 使用高级相关性界面,您可以控制为特定搜索查询返回的页面。 如果您希望确保客户在查询特定词语时看到特定页面,则此功能非常有用。

请参阅添加新的meta标签字段

是否可以更改搜索结果页面的语言?

是. 在允许您构建使用所选语言且与网站外观匹配的结果页面时,网站搜索/促销模板是灵活的。

模板由文本、标准HTML标记和特殊标记的组合组成,这些标记定义为显示搜索结果。 当客户执行搜索时,搜索自动机读取模板,使用标准HTML标签输出文本,并基于特殊的模板标签插入结果链接。

请参阅搜索模板标记

如果要更改结果语言,可以编辑模板上显示的英语文本。

请参阅编辑演示文稿或传输模板

我是否可以在我的Adobe客户登录中拥有多个站点?

是. 只需一个Adobe客户登录,即可管理许多不同网站的不同搜索引擎。 选择并管理“帐户”下的帐户。

请参阅选择其他帐户以使用

是否可以搜索多个域?

是. 可以使用URL Entrypoints配置访问多个域。 为您拥有的其他域提供URL入口点。 请记住,您必须具有对您没有的域进行索引的权限。

请参阅关于URL入口点

能否将我的网站细分为单独的部分,以便客户可以单独或整个网站搜索其中任何区域?

是. 其中包含“集合”功能,客户可通过它搜索网站的特定区域来快速查找所需内容。

请参阅关于集合

例如,客户可以搜索与产品销售信息相关的URL集合或与支持服务相关的URL集合。 您可以设置收藏集,以便您的客户能够看到收藏集的下拉列表或一组复选框。

如何排除搜索网站的某些部分?

是. 指定URL蒙版,以确定要包括或排除在索引中的网站页面。 URL蒙版可确定网站页面是否显示在搜索结果中。

请参阅关于URL蒙版

请参阅关于URL掩码脚本

要防止搜索单个网页的部分,可以从索引中排除页面的部分。 用<noindex></noindex>标签环绕文本。 如果要从搜索中排除导航文本,则此方法很有用。

支持哪些字符集?

网页通常使用类似于以下内容的meta标签指定字符集:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">

网站搜索/促销引擎使用目前因特网上使用的所有常用字符集正确索引网页。 某些支持的字符集包括:

阿拉伯语(ISO-8859-6)

繁体中文;大5)

日语(Shift_JIS)

阿拉伯语(Windows-1256)

繁体中文;EUC-TW)

俄语(KOI8-R)

鲍尔蒂克语(ISO-8859-4)

西里尔语(ISO-8859-5)

南欧语(ISO-8859-3)

鲍尔蒂克语(Windows-1257)

西里尔语(Windows-1251)

土耳其语(ISO-8859-9)

中欧语言(ISO-8859-2)

希腊语(ISO-8859-7)

土耳其语(Windows-1254)

中欧语言(Windows-1250)

希腊语(Windows-1253)

Unicode(UTF-8)

中文(ISO-2022-CN)

希伯来语(ISO-8859-8)

US-ASCII(us-ascii)

中文(ISO-2022-CN-EXT)

希伯来语(Windows-1255)

西欧语(ISO-8859-1)

中文(简体;EUC-CN)

日语(EUC-JP)

西欧语(ISO-8859-15)

中文(简体;GB2312)

日语(ISO-2022-JP)

西欧语(Windows-1252)

中文(简体;GBK)

日语(ISO-2022-JP-1)

西欧语(x-mac-roman)

中文(简体;HZ-GB-2312)

日语(ISO-2022-JP-2)

请与技术支持联系,询问有关以上未列出的字符集的信息。

如果我更改或更新我的网站会怎样?

更改网站内容后,可以执行完整索引或增量索引。 网站搜索/促销下载和索引任何更改的网站内容。 索引完成后,您的客户可以搜索新内容。 您还可以在特定时间和特定日期计划站点的自动索引。

请参阅运行实时或分阶段网站的完整索引……

请参阅运行实时或分阶段网站的增量索引……

请参阅设置实时网站的完整索引计划

请参阅设置实时网站的增量索引计划

是否可以自动索引我的网站?

是. 您可以每天计划站点的自动索引。

除了每日自动索引外,您还可以选择频繁更改其网站的部分内容,以增量方式索引。 在计划了自动索引的天数内,您可以控制索引发生的时间。 此外,您始终可以根据需要手动启动站点索引。

请参阅设置实时网站的完整索引计划

请参阅设置实时网站的增量索引计划

我在我的网站上使用密码。 我是否仍能使用网站搜索/促销?

如果使用HTTP基本身份验证对网站的某些部分进行口令保护,则可以指定网站搜索/促销可用于为网站编制索引的领域和口令。

请参阅添加用于访问网站中需要的区域的口令……

是否支持对https或安全服务器内容进行搜索和索引?

是. 您可以在安全服务器(https)上爬网和索引内容。

网站搜索/促销是否遵守我网站上的robots.txt文件?

是. 机器人排除协议符合。 如果您的网站上存在robots.txt文件,搜索机器人将检查该文件。 如果您的robots.txt文件排除了搜索您的站点的所有机器人,则站点搜索/销售机器人也将被排除。 要仅允许站点搜索/促销自动机爬网您的站点,请将robots.txt文件的内容设置为:

User-agent: Atomz/1.0
Disallow:
User-agent: *
Disallow: /

您可以在以下位置进一步了解Web机器人和机器人排除协议:

https://www.robotstxt.org/orig.html

我网站的某些部分必须经常更新,以便我的客户获得最准确的搜索结果。 增量索引是否有助于解决此问题?

是. 此方案是为便于网站搜索/销售而构建的增量索引功能。 增量索引的主要好处是它允许公司经常对网站中不断变化的部分进行动态索引。 此类功能可确保您以“最快”的准确度显示搜索结果。

请参阅运行实时或分阶段网站的增量索引……

请参阅设置实时网站的增量索引计划

是否支持从后端数据库(如产品目录或库存管理系统)动态生成的网页?

对静态或动态生成的HTML网页(包括从数据库构建的页面)或任何其他后端进程进行索引。 由于浏览器查看的HTML代码已编制索引,因此只要后端数据库信息导致HTML页,您就可以在网站上使用站点搜索/销售。

搜索自动机从Account Settings中指定的网站地址的第一页开始,对您的网站进行爬网,并跟踪从页面到页面的链接。

请参阅配置帐户设置

当搜索自动机对您网站的所有页面进行爬网和索引时,您可以使用搜索引擎搜索您的网站。 换句话说,如果将动态生成的文档与来自其他页面的链接编织到您的网站中,则搜索自动机仍然可以爬网并索引动态数据库内容。

在对网站内容进行爬网和索引后,您网站的客户可以搜索索引内容中的信息。

您可以轻松实现完整内容搜索,或仅限于标题中的信息、元描述、元关键字文档标签或全部三个主题的更窄范围的主题搜索。 使用元数据定义,您还可以在实际搜索结果中创建自定义显示字段,如产品图像。

请参阅添加新的meta标签字段

我是否可以使用脚本或项目来启动网站的增量索引?

是. 您可以使用脚本或项目来启动网站的增量索引,以及在内容发生更改或更新时ping服务器以索引站点。

请参阅关于脚本索引

功能实现

一个常见问题解答页,讨论Search&Promote中的各种功能实现。

以下是有关网站Search&Promote中功能实现的常见问题:

为什么我的商业规则没有运行?

在显示横幅时配置业务规则,或帮助确定显示结果和顺序。 您还可以配置项目在facet中的位置,以及用于给定搜索的模板。
对业务规则重新排序,以更改在演示文稿模板上运行规则的顺序。 商业规则按照定义的顺序运行;也就是说,一条规则的订单编号越高,它在该过程中运行得越晚,就超越了之前的规则。 要对规则重新排序,请在“业务规则”页的表的“顺序”列中输入新编号。

请参阅关于Business Rules

为什么我在计划索引、启动索引时出错以及启动分阶段索引时遇到问题?

在生成索引时,无论该索引是完整索引还是增量索引爬网状态信息都会实时显示。 例如,您可以视图开始时间、已用时间以及在索引过程中发生的任何错误。 还将显示有关上一个索引状态的信息。 使用此信息可解决您遇到的任何索引错误。

有关计划索引,请参阅设置实时网站的完整索引计划设置实时网站的增量索引计划

有关启动分阶段索引的信息,请参阅运行实时或分阶段网站的完整索引……正在运行实时或分阶段网站的增量索引……

我的索引大小限制超出了我允许的边界。 为什么会发生这种情况,我该如何解决?

网站可能会不断增长,并且随着时间的推移,Search&Promote会“发现”更多已添加的文档和网页。 最终,您的帐户可能会超出您的索引大小限制。在这种情况下,您可以考虑使用​URL Mask。 此功能可隐藏文档和网页,使其不需要或不需要索引的索引搜索,从而缩小索引大小。 另一种选择是与技术支持联系,使您的索引大小限制在您的帐户中设置得更大。

请参阅关于URL蒙版

如果您不确定要做什么,应与技术支持联系。 可能还有许多其他变量影响您的索引大小,如果进行了调整,这些变量也可能影响帐户的开单。

国际

一个常见问题页,讨论支持对超过19种语言进行索引和搜索,包括多字节亚洲语言,如中文(简体和繁体)、日语和韩语。

以下是有关语言和字符集的常见问题:

什么控制搜索查询的字符集编码?

您的搜索帐户的“Web 窗体”部分包含用于向网站添加搜索功能的示例搜索表单。 如果查看此搜索表单代码,您可以找到与以下内容类似的行:

<input type=hidden name="sp_f" value="iso-8859-1">

此代码行告诉搜索引擎传入的查询是使用iso-8859-1编码的,这是西欧语言的常用编码。 您可以通过转到产品菜单并单击​Settings > My Profile > Personal Information​来更改此设置。 在Personal Information页面的​Character Encoding​下拉列表中,选择新编码。

请参阅配置您的个人用户信息

您还可以通过编辑搜索表单的sp_f行手动更改网页上的编码值。 请记住,搜索表单的sp_f值必须与显示该表单的页面的字符集编码匹配。

是否只搜索编码与搜索查询编码匹配的页面?

默认情况下,否。 只要您的网站页面正确识别其字符集编码,即使页面使用多个编码,搜索查询的编码和页面的编码之间也会进行必要的转换。

搜索结果页面使用什么编码?

帐户的字符集编码决定了结果模板的默认编码。

请参阅配置您的个人用户信息

您可以进一步了解如何在HTML模板中指定字符集。

请参阅搜索模板标记

我是否可以对Unicode、UTF-8、编码页面使用站点搜索/促销?

是. 但是,Unicode字符集(如UTF-8)不提供足够的信息来确定页面所用的语言。 要正确搜索这些页面,必须指定语言。 要确定文档语言,将按以下顺序处理信息:

  • 服务器为文档提供的内容语言HTTP头。

  • 文档<HEAD>部分中的META元素(例如META HTTP-EQUIV="Content-Language" Content="ja_JP")。

  • <HTML>标记的LANG属性(例如<HTML LANG="ja_JP">)。

如果您的服务器未配置为传送内容语言HTTP头,而您的文档既不包含语言META元素,也不包含<HTML>标记的语言属性,则可以使用元数据注入来指定适当的语言。

请参阅添加字段注入定义

为什么我无法在我的网站上搜索中文、日文或韩文PDF文件?

网站搜索/促销从Adobe PDF文件获取UTF-8,而不显示任何语言。 如果选择​PDF Documents(Settings > Crawling > Content Types),则必须使用元数据注入指定PDF文件中使用的语言。

请参阅添加字段注入定义

为什么我无法在我的网站上搜索中文、日文或韩文SWF文件?

网站搜索/促销从使用Adobe Flash创建且没有语言指示的Adobe Flash电影文件中获取UTF-8。 如果选择了内容类型​Adobe Flash Movies(Settings > Crawling > Content Types),则必须使用元数据注入指定SWF文件中使用的语言。

对于Flash版本4或更早版本的SWF文件,不指定文件中字符的字符集。 如果选择了内容类型​Adobe Flash Movies(Settings > Crawling > Content Types),则必须使用元数据注入指定SWF文件中使用的字符集。

请参阅添加字段注入定义

为什么我无法在我的网站上搜索中文、日文或韩文Microsoft Office文件?

网站搜索/促销从Microsoft Office文件(Microsoft Word、Microsoft Excel和Microsoft PowerPoint)获得UTF-8,而不显示任何语言。 如果选择了内容类型​Microsoft Office Files(Settings > Crawling > Content Types),则必须使用元数据注入指定Microsoft Office文件中使用的语言。

请参阅添加字段注入定义

为什么我无法在我的网站上搜索中文、日文或韩文MP3文件?

如果选择内容类型​Text in MP3 Music Files(Settings > Crawling > Content Types),则必须使用元数据注入指定用于对MP3文件进行编码的字符集。

请参阅添加字段注入定义

我是否需要执行任何特殊操作才能在我的网站上获取正确索引的.txt文件?

如果选择了内容类型​Text Documents(Settings > Crawling > Content Types),则必须使用元数据注入指定用于对.txt文件进行编码的字符集。

请参阅添加字段注入定义

为什么在Netscape 4.7及更早版本的搜索结果中显示中文、日文或韩文字体?

如果您的帐户使用默认模板、一个随时可用的模板或基于任何这些模板的模板,则其中可能包含将Arial或Helvetica指定为字体的字体标签。 例如,<font face="arial, helvetica" size="+1">。当使用Arial或Helvetica字体时,Netscape 4.7及早期版本不显示中文、日文或韩文字符。 删除face属性,或将字体替换为更适合中文、日文或韩文的字体。

低页数

一个常见问题页,讨论与低索引页面计数相关的常见问题。

以下是有关低索引页面计数的常见问题:

你检查过你的索引日志吗?

索引日志包含站点搜索/销售机器人在为您的网站建立索引时收集的详细信息。 日志中包含一列表已爬网的链接和遇到的错误。 检查索引日志是确定为何网站上的所有页面未编制索引的最佳开始位置。

请参阅查看实时或分阶段的完整索引日志……

请参阅查看实时或暂存的增量索引日志……

您的URL中是否有键入错误?

在HTML表单中键入长URL时,可能会引入一个或多个排版错误。 请记住,URL不应包含任何空格。 另外,请注意,某些Web服务器会以区分大小写的方式处理URL。

在产品菜单上,单击​Settings > Crawling > URL Entrypoints。 在Staged URL Entrypoints页面上,验证以下内容:

  • 您的URL中没有任何排版错误。
  • URL中的字符均使用正确的大小写。
  • URL中没有空格字符。

要测试URL入口点,请将URL复制并粘贴到Web浏览器中,以查看是否显示您的网站。 如果未显示,请再次检查以确保您的URL路径中没有出现任何错误。

请参阅关于URL入口点

入口点网页是否包含指向您网站上其他页面的链接?

网站搜索/促销机器人像客户一样对网站进行爬网;通过跟踪页面之间的链接。 在进入点网页中必须存在链接,搜索机器人才能查找并索引您网站上的其他页面。

请参阅添加要索引的多个URL入口点

您网站上其他页面的链接是否嵌入JavaScript?

您可以在您的网站上使用复杂的导航技术,如滚动操作和菜单,它们使用JavaScript链接到其他页面。 但是,站点搜索/销售机器人无法遵循JavaScript中嵌入的链接。

您可以用来解决此问题的解决方案之一,是在包含JavaScript的HTML中放置指向其他页面的隐藏链接。 尽管您网站的客户看不到这些链接,但搜索自动机仍会查找和爬网这些链接。 可以将隐藏标记放置在页面底部的</body>标记之前。 它们可能如下所示:

<a href="/mydir/mypag1.html"></a>
<a href="/mydir/mypag2.html"></a>

另一种解决方案是将网站上其他页面的URL列表为入口点以进行爬网和索引。 URL以https://开头,如下所示:

https://www.mydomain.com/mydir/mypag1.html
https://www.mydomain.com/mydir/mypag2.html

请参阅添加要索引的多个URL入口点

网页上的HTML标记是否顺序无效?

HTML规范要求<html><head><body>标签遵循HTML文档中的特定序列。 所有网页中的标记必须具有以下顺序:

<html>
<head>
...
<i>head tags go here</i> ...
</head>
<body>
...
<i>body tags go here</i> ...
</body>
</html>

如果HTML标记顺序不正确,则站点搜索/销售机器人无法正确分析和索引您的网页。 以下是不在正确序列中的标记示例:

<body>
<head>
...
<i>head tags are here</i> ...
</head>
...
<i>body tags are here</i> ...
</body>

在这种情况下,请将<html><head><body>标签放入网页中的相应序列中。

您的网页中是否有错误的HTML注释标签?

请务必仔细查看并更正网页中的任何无效HTML注释。

HTML规范要求HTML注释以字符<!--开头,以字符-->结尾。 很容易忽略格式不正确的注释,这些注释会导致网站搜索/销售自动机不正确地分析网页上的标签。 格式不正确的注释可能会导致网站搜索/销售机器人错过必须分析的其他重要标记。 请注意网页中<body>标记之前的注释。

以下是格式正确的注释的示例:

<!-- This HTML comment is OK. -->

以下是格式不正确的注释示例:

<!- This HTML comment is improperly formed. ->
<! This HTML comment is also improperly formed. >

您的网页是否包含指向其他域上的页面的链接?

通常,网站可以由实际存在于具有不同域地址的Web服务器上的页面组成。 例如,如果您的主网站地址如下:

https://www.mydomain.com/

您的网站可能还包含其他域上的页面,例如:

https://www.otherdomain.com/

默认情况下,站点搜索/促销机器人不会跟踪除主域之外的域上的链接。 但是,通过为您的搜索帐户设置其他入口点,您可以轻松为多个域编制索引。

在产品菜单上,单击​Settings > Crawling > URL Entrypoints。 添加您网站的“主网站入口点”URL。 然后,将其他URL入口点添加到包含网页的任何其他域。 例如,您应将主URL入口点设置为:

https://www.mydomain.com/

并添加以下其他站点URL入口点:

https://www.otherdomain.com/

您是否正在为您的URL使用虚拟域服务?

您可能使用虚拟域服务(有时称为“域重定向服务”)为客户提供更好的URL以访问您的网站。 例如,假设您网站的实际地址如下:

https://www.myispdomain.com/~myname/mywebpages/

但是,您使用虚拟域服务,以便客户能够访问您的站点,地址如下:

https://myname.adomain.com/

https://adomain.com/myname/

默认情况下,站点搜索/促销机器人不会跟踪除主域之外的域上的链接。 但是,通过为您的搜索帐户设置其他入口点,您可以轻松为多个域编制索引。

在产品菜单上,单击​Settings > Crawling > URL Entrypoints。 将“主网站URL入口点”添加到站点的虚拟域名。 然后,将其他入口点添加到网站实际所在的域。

例如,您应将主URL入口点设置为:

https://myname.adomain.com/

并添加以下其他网站URL入口:

https://www.myispdomain.com/~myname/mywebpages/

您的网页是否使用meta refresh标记?

许多网站的首页中都包含一个meta刷新标记,该标记位于<head>...</head>标记之间,类似于:

<meta http-equiv="Refresh" content="0;URL=https://www.adomain.com/apath/afile.html">

在某些情况下,网站搜索/促销自动机无法使用元刷新URL来索引您网站的内容。 通过设置其他入口点可以轻松解决此问题。

在产品菜单上,单击​Settings >爬网> URL Entrypoints。 将另一个入口点添加到meta refresh标记的URL。

您的网页是否使用元机器人标签?

有时网页会使用元机器人标签来控制定期尝试爬网的网络机器人。 元机器人标签显示在网页的<head>...</head>标签之间,与以下标签类似:

<meta name="robots" content="noindex, nofollow">

由于网站搜索/销售机器人本身就是一个网络机器人,它遵循了元机器人标签的方向。 通过以这种方式排除其他机器人,您也排除了网站搜索/销售机器人。

您可以在以下位置进一步了解Web机器人和机器人排除协议:

https://www.robotstxt.org/orig.html

删除或修改您要在网站上编制索引的网页上的元机器人标签。

您的网站是否使用机器人排除文件?

有时,网站的页面名为robots.txt,该页面会排除所有或某些机器人对其进行搜索。 要查看您的网站是否有robots.txt文件,请在顶级域下查找它,如下所示:

https://www.yourdomain.com/robots.txt

robots.txt文件的内容与以下文本类似:

User-agent: *
Disallow: /

由于网站搜索/促销机器人本身是一个Web机器人,因此它遵循robots.txt文件中的方向 — 它不包括网站搜索/促销机器人。 要解决此问题,请编辑robots排除文件(robots.txt),以允许站点搜索/销售机器人按如下方式对您的网站进行爬网和索引:

User-agent: Atomz/1.0
Disallow:

User-agent: *
Disallow: /

Microsoft Office

一个常见问题页,讨论支持在网站上对Microsoft® Office文件进行索引和搜索。

以下是有关Microsoft Office文件的常见问题:

Microsoft Office文件中有哪些内容被索引?

Microsoft Word文件、Microsoft Excel文件和Microsoft PowerPoint文件的完整内容将编制索引。

Microsoft Word文件的以下部分已编制索引:

  • 标题
  • 关键字
  • 主题(说明)
  • 基于文本的内容
  • 指向其他文档的超链接

Microsoft Excel文件的以下部分已编制索引:

  • 标题
  • 关键字
  • 主题(说明)
  • 单元格中的文本
  • 单元格中数字公式的值

Microsoft PowerPoint文件的以下部分已编入索引:

  • 标题
  • 关键字
  • 主题(说明)
  • 每张幻灯片上的文本

哪些内容未在Microsoft Office文件中编入索引?

包含在Microsoft Office文件中的图形,或包含的图形中的任何文本,均不进行索引。 自定义属性定义不会作为元数据进行索引。 特殊字段中的某些文本(如PowerPoint文件中的页眉和页脚)也不进行索引。

Microsoft Office文件与HTML页面的索引有何不同?

搜索机器人对Microsoft Office文件和HTML文件的索引方式之间的区别在于,每个HTML文件都是一个单独的页面,而单个Microsoft Office文件可以代表数百个页面。 因此,每个页面在Microsoft Office文件中计为搜索帐户下的单独页面。

如何防止在我的网站上对Microsoft Office文件编制索引?

如果不希望搜索自动机对Microsoft Office文件进行爬网和索引,请取消选择内容类型​Microsoft Office Files(Settings > Crawling > Content Types)。

您还可以使用URL Masks禁用Microsoft Office文件的索引。

输入以下URL蒙版:

如果您不使用常规表达式

  • exclude *.doc
  • exclude *.xls
  • exclude *.ppt

如果您使用常规表达式

  • 排除regexp ^。*\.doc$
  • 排除regexp ^。*\.xls$
  • 排除regexp ^。*\.ppt$

请参阅将URL蒙版添加到……的索引部分或不是索引部分……

请参阅常规表达式

MP3

一个常见问题页,讨论对网站上MP3音乐文件的索引和搜索的支持。

以下是有关MP3文件的常见问题。

何时对MP3文件进行爬网和索引?

MP3文件通过两种方式之一进行爬网和索引。 最常见的方式来自HTML文件中的锚点href标签:

<a href="MP3-file-URL"></a>

第二种方法是输入MP3文件的URL作为URL入口点。

请参阅关于URL入口点

如何爬网和索引站点上的MP3文件?

要激活帐户的MP3搜索和索引,请在产品菜单上单击​Settings > Crawling > Content Types。 在Staged Content Types页面上,选择​Text in MP3 Music Files

请参阅关于内容类型

如何识别MP3文件?

MP3文件的MIME类型是“audio/mpeg”。

MP3文件中有哪些索引?

MP3文件可以选择性地存储少量文本信息。 该信息可以包括专辑名称、艺术家姓名、歌名、歌曲流派、发行年份和评论。 此信息存储在文件的最末,称为TAG。 包含TAG信息的MP3文件通过以下方式进行索引:

  • 歌曲标题会被视为HTML页面的标题。
  • 该注释被视为为HTML页面定义的描述。
  • 流派被视为为HTML页面定义的关键字。
  • 艺术家名称、影集名称和发行年份被视为HTML文档的正文。

MP3文件是否计为页面?

是,在您的网站上爬网和索引的每个MP3文件计为一页。

如何防止为单个MP3文件编制索引?

<nofollow></nofollow>标记环绕链接到MP3文件的锚记。 搜索自动机不跟踪这些标记之间的链接。

另一种方法是将MP3文件的URL添加为排除蒙版。

请参阅关于URL蒙版

请参阅关于URL掩码脚本

如何防止对MP3文件进行索引?

控制帐户MP3索引的最简单方法是取消选择Staged Content Types页面上的​Text in MP3 Music Files

请参阅选择要爬网和索引的内容类型

您还可以使用URL蒙版功能按文件扩展名禁用MP3索引。 为此,请在产品菜单上单击​Settings > Crawling > URL Masks。 输入以下蒙版之一:

如果您的帐户……

输入以下URL掩码

不使用常规表达式

exclude *.mp3

使用常规表达式

排除regexp ^。*\.mp3$

请参阅常规表达式

为什么无法在我的站点上搜索中文、日文或韩文MP3文件?

要搜索中文、日文或韩文MP3文件,请在产品菜单上单击​Settings > Crawling > Content Types > Text in MP3 Music Files。 然后,单击​Settings > Metadata > Injections ,并指定用于对MP3文件进行编码的字符集。

请参阅选择要爬网和索引的内容类型

请参阅关于Injections

PDF

常见问题解答页讨论了在网站上为PDF文件编制索引和搜索的支持。

以下是有关PDF文件的常见问题:

哪些内容在PDF文件中编入索引?

PDF文件的完整内容已编制索引。 PDF文件的以下部分已编制索引:

  • 标题
  • 关键字
  • 主题(说明)
  • 基于文本的内容

哪些内容不在PDF文件中编入索引?

PDF目录、文件中的任何图形或包含的图形中的任何文本均不会编制索引。

索引PDF文件如何计数?

每个PDF文件(包括包含多个页面的PDF)计为一个文档。

搜索结果能否显示PDF图标?

是. 使用模板中的<search-if-link-extension>标签在搜索结果中加入PDF图标或其他图形或文本:

<search-results>
  ...
  <search-if-link-extension value=".pdf">
    <img src="/search/i/pdficon.gif">
  </search-if-link-extension>
  ...
</search-results>

PDF图标可帮助您的客户知道搜索结果链接到可能非常大的PDF文件。 文件大小对通过调制解调器或移动设备访问您网站的客户可能很重要。

搜索结果是否可以链接到PDF文件中的特定页面?

是. 使用智能链接模板标签(<search-smart-link>...</search-smart-link>),客户可以单击打开包含搜索结果的第一个PDF页面。

要使用智能链接,请将模板的搜索结果部分中的<search-link>...</search-link>标签替换为<search-smart-link>...</search-smart-link>标签。 当客户单击智能链接标签生成的链接时,他们将转到与其搜索查询相关的第一个PDF页面。

注意

要使用此功能,客户必须使用最新版Adobe Acrobat或Adobe AcrobatReader,其中必须包括突出显示插件和外部窗口处理程序(EWH)插件。 此外,其Web浏览器必须使用Adobe Acrobat Plug-in for Netscape Navigator(您可以使用接受此Netscape Navigator插件的任何浏览器)或Acrobat ActiveX控件for Internet Explorer 4.0及更高版本。

请参阅搜索模板标记

如何防止在我的网站上对PDF文件编制索引?

如果不希望搜索自动机对PDF文件进行爬网和索引,请取消选择内容类型​PDF Documents(Settings > Crawling > Content Types)。

您还可以选择使用URL Masks禁用PDF索引。

请参阅将URL蒙版添加到……的索引部分或不是索引部分……

要禁用PDF索引,请输入以下URL蒙版之一:

  • exclude *.pdf (如果您不使用常规表达式)
  • exclude regexp ^.*\.pdf$ (如果您使用常规表达式)

请参阅常规表达式

为什么我无法在我的网站上搜索中文、日文或韩文PDF文件?

网站搜索/促销从没有语言指示的PDF文件获取UTF-8。 如果选择了内容类型​PDF Documents(Settings > Crawling > Content Types),则必须使用元数据注入指定PDF文件中使用的语言。

请参阅添加字段注入定义

页数太多

常见问题页,用于解释索引器计数的页面数量超过实际页数的部分原因以及每种情况下的解决方案。

如果您确定网站低于页面限制,但索引器告诉您已达到限制,则应查看这些常见问题和答案以了解可能的解决方案。

你检查过各种索引日志吗?

索引日志包含由站点搜索/销售机器人在对您的网站建立索引时收集的详细信息。 日志中包含所有已爬网链接的列表,并且遇到错误。 在尝试确定要索引哪些页面时,检查索引日志是开始的最佳位置。

请参阅查看实时或分阶段的完整索引日志……

请参阅查看实时或暂存的增量索引日志……

请参阅查看实时或……的脚本增量索引日志

请参阅查看实时或已暂存的已重新生成索引日志……

请参阅查看实时或分阶段网站的重排索引日志

CGI项目是否正在您的网站上编制索引?

CGI项目使用URL参数,这些参数有时会导致索引器爬网多个“假”URL。 如果网站搜索/促销正在读取您的CGI项目,并在其中使用CGI参数的URL后,可能有数倍的页面正在被爬网和索引,这对您的搜索索引来说并不有用。 典型CGI参数显示在具有?&字符的URL中。

您可以使用URL蒙版功能遮住CGI项目的索引。 您可以遮罩URL前缀或使用常规表达式来遮罩您的CGI脚本。

请参阅关于URL蒙版

请参阅关于URL掩码脚本

请参阅常规表达式

您的服务器是否启用了目录浏览?

当Web服务器启用了目录浏览且给定目录中没有index.html文件时,访问该目录可显示该目录中的文件列表。 通常,页面顶部有链接,您只需单击​NameLast modifiedSize​等,即可通过不同方式对列表进行排序。 通常,这些URL在网站搜索/促销索引日志中以URL的形式显示,其末尾为?M=A等字符。 网站搜索/促销索引器将这些链接作为链接,这可能导致为多个“假”URL建立索引。

通常,设计良好的网站要么在每个目录中都有索引文件,要么对那些没有索引文件的目录禁用了目录浏览。 幸运的是,如果您无法更改页面或禁用服务器端的目录列表,有一种简单的方法可以遮住这些“假”URL。

要完成此任务,请单击​Settings > Crawling > URL Masks。 添加一个蒙版以遮住包含字符?的任何URL。 您可以通过输入以下常规任务掩码来执行此表达式:

exclude regexp ^.*\?.*$

创建蒙版后,请确保重新为网站编制索引。

请参阅运行实时或分阶段网站的完整索引……

请参阅运行实时或分阶段网站的增量索引……

您的网站上是否有论坛或新闻组?

如果您的网站上正在对论坛或新闻组进行爬网,则它可能位于不同显示选项或排序选项的URL之后。 此行为意味着对同一页面进行多次索引。

通常,论坛或新闻组会随附自己的搜索引擎。 在这种情况下,您可以使用URL Masks从网站搜索/促销中遮住论坛。

在产品菜单上,单击​Settings > Crawling > URL Masks。 在Staged URL Masks页面上,通过将论坛的URL输入为排除URL掩码来遮罩论坛。

请参阅将URL蒙版添加到……的索引部分或不是索引部分……

创建蒙版后,请确保重新为网站编制索引。

请参阅运行实时或分阶段网站的完整索引……

请参阅运行实时或分阶段网站的增量索引……

您的网站上是否有PDF或Microsoft Office文件?

如果您的网站上有PDF文件或Microsoft Office文件,您可能会注意到,仅几个文件的索引大小会计入许多页面。 正在编制索引的页面比您的文档多的原因是,PDF或Microsoft Office文件中的每个页面都计为单独的页面。

在产品菜单上,单击​Index > Full Index > Live Index。 在Full Index页面上,选择​Count All Pages,然后单击​Full Index Now​以查看总页数。 如果不希望对PDF文件或Microsoft Office文件进行索引,可以在​Settings > Crawling > Content Types​下禁用此内容类型。

请参阅运行实时或分阶段网站的完整索引……

请参阅关于内容类型

您有多个URL入口点?

网站搜索/促销自动机开始在指定的URL入口处搜索,并跟踪到该特定域中所有内容的所有找到的链接。 如果您指定了多个URL入口点,可能会爬网大量页面。

在附加域的入口点文档的标头中使用Robots Exclusion Protocol的nofollow标签,如下所示:

<html>
<head>
<meta name="robots" content="nofollow">
</head>

上述代码告诉网站搜索/促销自动机为页面内容编制索引,但不要跟踪指向其他页面的链接。

您可以在以下位置进一步了解Web机器人和机器人排除协议:

https://www.robotstxt.org/orig.html

如果您无权访问其他域上的页面源,则可以删除多个URL入口点。 这样做可帮助您将索引活动限制为仅限于那些您希望客户能够搜索其内容的域。

请参阅关于URL入口点

您是否超出了网站搜索/促销的内部字节或时间限制?

在“Full Index Status(完整索引状态)”屏幕上检查您的帐户是否已达到其限制。 如果状态报告您的索引大于允许值或花费的时间大于允许值,则您的网站没有完全编制索引。 您可以更正此错误,以便获得正确的网站页面覆盖和计数。

为保护网站搜索/促销服务器,对字节和时间有内部限制。 只有在爬网文件非常大,或当网站搜索/促销尝试访问的服务器速度较慢时,才会达到这些限制。

如果达到时间限制,请确保您的服务器处于联机状态,并在以后再次尝试索引。 如果达到字节限制,请通过查看索引日志检查已爬网的文件。 它们有异常大吗? 如果您看到其中任一消息,请与技术支持联系。

在此页面上