关于元数据菜单

使用元数据菜单可自定义搜索定义和索引注入。

关于定义

您可以使用Definitions自定义客户提交搜索查询时考虑的HTML和元数据字段的内容和相关性。

您可以编辑已预定义的字段。 或者,您也可以根据元数据标记内容创建新的用户定义的字段。 每个定义都显示在Staged Definitions页面的一行中。

另请参阅关于数据视图

添加新的元标记字段

您可以定义并添加自己的元数据标记字段。

在客户看到新元标记定义的效果之前,您必须重新构建网站索引。

添加新的元标记字段

  1. 在产品菜单中,单击​Settings > Metadata > Definitions

  2. 在Definitions页面上,单击​Add New Field

  3. 在Add Field页面上,设置所需的选项。

    选项

    描述

    字段名称

    指定用于引用字段的名称。

    字段名称必须遵循以下规则:

    • 名称只能包含字母数字字符。
    • 名称中允许使用破折号,但不允许使用空格。
    • 您最多可以输入20个字符的名称。
    • 该名称不区分大小写,但会完全按照您键入的名称来显示和存储该名称。
    • 不能使用预定义字段中存在的名称,如暂存定义页面的表中所示。
    • 不能将单词“any”用作用户定义的字段名称的值。
    • 您无法编辑预定义字段的名称。

    字段名称示例:

    • 作者
    • PublishDate
    • 狂野

    元标记名称

    确定与定义的字段关联的内容。

    名称列表最长可包含255个字符。 而且,名称可以包含HTML元标记的名称属性中允许使用的任何字符。

    您可以在单个字段定义中指定多个元标记。

    多个值必须以逗号分隔,并且在任何给定网页上找到的最左侧的元标记名称优先。

    例如,假定您定义了一个名为“auth”的字段。 字段名称具有关联的元标记“author, dc.author”。 在这种情况下,如果网页上同时显示了“author”元标记的内容,则会将“author”元标记中的内容编入索引并搜索“dc.author”元标记中的内容。

    用户定义的字段的定义中必须至少有一个元标记名称。 预定义的字段不需要具有关联的元标记。 但是,如果指定了一个或多个元标记,则元标记的内容将覆盖每个标记的当前数据源。

    例如,如果元标记“dc.title”与预定义的“title”字段关联,则“dc.title”元标记中的内容将在 <title> 标记。

    请参见如下示例:

    • dc.date
    • 描述
    • 独资企业

    数据类型

    每个字段都有一个关联的数据类型,如文本、数字、日期、版本、排名或位置。 此数据类型确定字段内容的索引、搜索和排序(可选)方式。

    创建字段定义后,便无法更改数据类型。

    使用以下信息可帮助您选择与字段包含的信息相关的数据类型。

    • 文本 数据类型字段会被视为字符串。
    • 数字 数据类型字段会被视为整数或浮点数值。
    • 日期 数据类型字段会被视为日期/时间说明符。在添加或编辑新字段时,您可以自定义允许的日期/时间格式。
    • 版本 数据类型字段会被视为自由格式的数字数据。例如,1.2.3在1.2.2之前排序。
    • 排名 数据类型字段与“数字”类型字段相同,不同之处在于它们还会影响搜索结果中的排名/相关性计算。

      请参阅有关规则排名

    • 位置 数据类型字段被视为世界上任何位置的物理位置。允许的位置格式包括:

      • 5位或9位DDDDD或DDDDD-DDD格式的邮政编码,其中每个“D”是0-9位数字。
      • 以DDD形式的三位数区域代码。
      • 纬度/经度对的形式为±DD.DDD±DDD.DDD,其中第一个数字指定纬度,第二个数字指定经度。

    允许列表

    仅当选择了文本数字时才可用。

    在此字段的元数据内容中单独索引分隔的值。

    例如,在选择“允许列表”时,“红、黄、绿、蓝”内容会被视为四个单独的值,而不是一个值。 此处理对于范围搜索(使用 sp_q_min , sp_q_max sp_q_exact )和 <search-field-value-list> , <search-field-values> <search-display-field-values>

    如果选择“版本”数据类型,则不可用。

    动态Facet

    注意:此功能在默认情况下不启用。请联系技术支持以将其激活以供您使用。 激活后,它会显示在用户界面中。

    将标识的Facet设置为动态。

    Facet基于元标记字段构建。 元标记字段是低级的核心搜索层AdobeSearch&Promote。 另一方面,Facet是GS(引导式搜索)的一部分,GS是AdobeSearch&Promote的高级表示层。 Facet自有的元标记字段,但是,元标记字段对Facet一无所知。

    请参阅关于动态Facet

    允许重复数据消除

    选中此选项可为此字段启用重复数据删除。 即,允许在搜索时通过 sp_dedupe_field 搜索CGI参数。

    请参阅搜索CGI参数

    表名称

    将给定字段与给定表名永久关联。

    每当在核心搜索CGI参数或模板标记中提及此类字段时,表名称便会自动提供。 此功能允许通过表匹配来选择动态Facet,但您也可以根据需要将其用于非动态Facet字段。

    列表分隔符

    仅在选择允许列表时可用。

    指定哪些字符分隔单个列表值。 您可以指定多个字符,每个字符都被视为值分隔符。

    默认搜索

    选择后,即使在给定的搜索查询中没有明确指定字段,也会搜索字段内容。 如果取消选择此选项,则仅在请求时搜索字段。

    垂直更新字段

    注意:此功能在默认情况下不启用。请联系技术支持以将其激活以供您使用。 激活后,它会显示在用户界面中。

    将标识的字段设置为“垂直更新”字段。

    “垂直更新”字段是通过“垂直更新”过程(“索引” > “垂直更新”)进行更新的候选字段。 由于进行垂直更新的方式,在自由文本搜索中无法搜索来自这些字段的内容。 选中此选项会导致在任何类型的索引操作期间,此字段的内容未添加到“word”索引中。 它还允许在“垂直更新”操作期间更新此字段。

    要了解有关垂直更新的更多信息,请参阅关于垂直更新

    相关性

    您可以编辑预定义字段和用户定义的字段的相关性。

    在1-10分级中指定相关性。 设置为1表示它最不相关,设置为10表示它最相关。 当软件考虑每个字段中的查询匹配时,会考虑这些值。

    排序

    指定何时按命名字段对结果进行排序,具体方式为 sp_s 搜索CGI参数。

    请参阅搜索CGI参数

    语言

    仅当选择数据类型排名数字日期时才可用。

    控制在索引此字段的日期、数字和排名值时应用的语言和区域设置约定。

    您可以选择应用帐户语言(语言>单词和语言)。 或者,也可以应用与包含每个数字或日期值的文档关联的语言,或者应用特定语言。

    日期格式

    仅当选择数据类型日期时可用。

    控制在索引此字段的日期值时识别的日期格式。

    为每个日期字段提供了日期格式字符串的默认列表。 您可以添加到列表或编辑列表以满足您自己网站的需求。

    请参阅日期格式

    测试日期格式

    仅当选择数据类型日期时才可用。

    用于预览您指定的日期格式,以确保格式正确。

    时区

    仅当选择数据类型日期时才可用。

    控制在为未指定时区的此字段的日期值编制索引时应用的假定时区。

    例如,如果帐户时区设置为“America/Los Angeles”,并且您选择了使用帐户时区,则以下元日期值(没有指定时区)会被视为太平洋时间,并考虑夏令时:

    <meta name="dc.date" content="Mon, 05 Sep 201213:12:00">

    最不重要的排名值

    仅当选择数据类型排名时才可用。

    控制表示任何文档的最低排名的排名值。

    如果文档排名从最低排名的0到最高排名的10之间,则将此值设置为0。

    如果文档排名从最高排名的1到最低排名的10,则将此值设置为10。

    默认排名值

    仅当选择数据类型排名时才可用。

    控制在文档不包含为此排名字段定义的任何元标记时所使用的排名值。

    最重要的排名值

    仅当选择数据类型排名时才可用。

    控制表示任何文档的最大排名的排名值。

    如果文档排名从最低排名的0到最高排名的10之间,则将此值设置为10。

    如果文档排名从最高排名的1到最低排名的10,则将此值设置为1。

    默认件数

    仅当选择位置作为数据类型时才可用。

    控制用于邻近搜索的距离值的处理。

    如果将默认单位设置为 Miles ,则应用于此字段的任何接近搜索最小/最大距离标准(通过 sp_q_min[_#] sp_q_max[_#] 搜索CGI参数)被视为英里,否则视为公里。

    此选项还控制应用于输出的默认距离单位 <Search-Display-Field> 搜索结果模板标记。

    请参阅关于近距离搜索

    创建范围描述?

    仅当选择数字作为数据类型时才可用。

    控制自动创建字段范围描述,以与设计 > 导航 > Facets 一起使用。

    请参阅关于Facet

    注意: 如果此字段选中了垂直更新字段 ,则在垂直更新期间将更新生成的“字段范围”描述字段。 但是,建议在范围字段中标识的字段也选中垂直更新字段

    范围字段

    仅当选中创建范围描述时可用。

    要更新的文本字段,其中包含当前字段的范围描述。 此列表包含所有尚未与字段范围生成的其他字段一起使用的文本字段。

    范围值

    仅当选中创建范围描述并选择了范围字段项时才可用。

    创建字段范围描述时要使用的数据点列表以空白分隔。 例如:

    10&nbsp;20&nbsp;50&nbsp;100&nbsp;1000

    您可以按任意顺序输入这些值。 在保存值之前,会先对值进行排序和删除重复项。 您还可以指定负值和非整数值。

    对于此字段的每个值:

    • 如果值小于(<)范围值中的最小值,则使用 "Less Than" Format
    • 如果值大于或等于范围值中最大值(>=),则使用 "Greater Than" Format
    • 否则,会找到一个“范围”,其中字段值位于两个连续的范围值(大于(>)较小值,小于或等于(<=)较大值)之间,并且使用中间格式

    例如,上面的值示例集将为值定义一组描述:

    • 少于10
    • 大于或等于10且小于20
    • 大于或等于20且小于50
    • 大于或等于50且小于100
    • 大于或等于100且小于10000
    • 大于或等于10000

    请参阅使用大于进行测试? 来更改这些测试的执行方式。

    “小于”格式

    仅当选中创建范围描述并选择了范围字段项时才可用。

    此模板用于为小于范围值中最小值的值指定范围描述。 最小值将使用数字占位符令牌 ~N~ 来表示。 例如:

    Less&nbsp;than&nbsp;~N~

    或:

    ~N~&nbsp;and&nbsp;below

    通常,该值将按“原样”格式设置 — 即,对于“5 10 20”的范围值定义和提供的值1,生成的范围描述将类似于“小于5”。 如果您希望它为“4.99及更低版本”,请将 Precision 设置为 2 并使用以下格式:

    ~n~&nbsp;and&nbsp;below

    "Less Than" Format 中,小写 ~n~ 将根据 Precision 设置将值四舍五入到 down中。

    注意:要按原样在范围描述中包含任何数字占位符,请使用反斜线(\)前缀指定 — 例如 \~N~ \~n~ 。 要包含反斜线字符,请使用另一个反斜线(例如, \\

    中间格式

    仅当选中创建范围描述并选择了范围字段项时才可用。

    此模板用于为介于范围值中找到的最小值和最大值之间的值指定范围描述。 对于给定范围,较低范围值将使用数字占位符令牌 ~L~ 表示,较高范围值将使用令牌 ~H~ 表示。 例如:

    ~L~&nbsp;to&nbsp;~H~

    或:

    Between&nbsp;~L~&nbsp;and&nbsp;~H~

    或:

    Less&nbsp;than&nbsp;~H~&nbsp;and&nbsp;greater&nbsp;than&nbsp;~L~

    通常,这些值将按“原样”格式设置 — 即,对于“5 10 20”的范围值定义和提供的值8,生成的范围描述将类似于“5到10”。 如果希望其值为“5到9.99”,且值较高时向下调整,请将精度设置为 2 并使用以下格式:

    Between&nbsp;~L~&nbsp;and&nbsp;~h~

    同样, ~L~ 可以被 ~l~ 替换,以便根据精度设置,将较低值调整为上方。 这表示定义如下:

    Between&nbsp;~l~&nbsp;and&nbsp;~H~

    如果精度值为 2 ,则会创建“5.01到10之间”。

    小写 ~l~ 将根据精度设置使小写值向上舍入,小写 ~h~ 将使大写值向下舍入。

    注意:要按原样在范围描述中包含任何数字占位符,请使用反斜线(\)前缀指定 — 例如 \~L~ \~h~ 。 要包含反斜线字符,请使用另一个反斜线(例如, \\

    “大于”格式

    仅当选中创建范围描述并选择了范围字段项时才可用。

    此模板用于为大于范围值中最大值的值指定范围描述。 最大值将使用数字占位符令牌 ~N~ 表示。 例如:

    Greater&nbsp;than&nbsp;~N~

    或:

    ~N~&nbsp;and&nbsp;above

    通常,该值将按“原样”格式设置 — 即,对于“5 10 20”的范围值定义和提供的值30,生成的范围描述将类似于“大于20”。 如果您希望它为“20.01及更高版本”,请将 Precision 设置为 2 并使用以下格式:

    ~n~&nbsp;and&nbsp;above

    "Greater Than" Format 中,小写 ~n~ 将根据 Precision 设置将值四舍五入到

    注意:要按原样在范围描述中包含任何数字占位符,请使用反斜线(\)前缀指定 — 例如 \~N~ \~n~ 。 要包含反斜线字符,请使用另一个反斜线(例如, \\

    查准率

    仅当选中创建范围描述并选择了范围字段项时才可用。

    指定小数点右侧位数的整数值。 这也控制舍入操作。

    脱零?

    仅当选中创建范围描述时,才会选择范围字段项,并设置了非零精度值。

    我们是否应将“0.50”显示为“。50”?

    去尾随零?

    仅当选中创建范围描述时,才会选择范围字段项,并设置了非零精度值。

    我们是否应将“10.00”显示为“10”?

    显示千位分隔符?

    仅当选中创建范围描述并选择了范围字段项时才可用。

    我们是否应将“10000”显示为“10,000”? 将使用区域设置特定的值。

    是否调整零值?

    仅当选中创建范围描述并选择了范围字段项时才可用。

    显示四舍五入零值时,是否应根据精度设置向上或向下四舍五入? 即显示“0.01”?

    是否使用大于进行测试?

    仅当选中创建范围描述并选择了范围字段项时才可用。

    由于每个值都与范围值中的值进行比较(按降序处理),因此,默认情况下,使用“大于”或“等于”(>=)运算符比较该值,在测试成功后停止。 这意味着,如果使用一组范围值(如“10 20 50 100 1000”),则值100将在100到1000之间,因为100实际上>= 100。 如果希望比较值在50到100之间,请勾选此选项,这将导致比较使用大于(>)运算符。

    例如,对于此字段的每个值,如果选中此选项:

    • 如果值小于或等于范围值中的最小值(<=),则将使用 "Less Than" Format
    • 如果值大于(>)范围值中的最大值,则将使用 "Greater Than" Format
    • 否则,将找到字段值介于两个连续范围值(大于或等于(>=)小于(<)大小值)之间的范围,并且将使用中间格式

    和:如果未选中,则:

    • 如果值小于(<)范围值中的最小值,则将使用 "Less Than" Format
    • 如果值大于或等于范围值中最大值(>=),则将使用 "Greater Than" Format
    • 否则,将找到字段值介于两个连续范围值(大于(>)小值且小于或等于(<=)大值)之间的范围,并且将使用中间格式

    测试

    仅当选中创建范围描述并选择了范围字段项时才可用。

    提供示例数值,然后按测试按钮以查看如何创建范围字段。 将在窗口中显示生成的范围描述。

    另请参阅添加新的元标记字段

  4. 单击 Add.

  5. (可选)如果要预览结果,请重新构建暂存站点索引。

    请参阅配置分阶段网站的增量索引

  6. (可选)在Definitions页面上,执行以下任一操作:

编辑预定义或用户定义的元标记字段

您只能编辑预定义元标记中的某些字段,或编辑用户定义的元标记中的所有字段。

在客户看到元标记更改的效果之前,必须重新构建网站索引。

要编辑预定义或用户定义的元标记字段,请执行以下操作

  1. 在产品菜单中,单击​Settings > Metadata > Definitions

  2. 在Definitions页面的表Actions列中,单击要更改的元标记字段名称行中的​Edit

  3. 在Pinned Keyword Results Manager页面的表格中,单击要更改的关键字行中的​Edit

  4. 在Edit Field页面上,设置所需的选项。

    如果您选择更改预定义的元标记字段,请注意并非所有字段都可编辑。

    请参阅Adding a new meta tag field下的选项表。

  5. 单击 Save Changes.

  6. (可选)如果要预览结果,请重新构建暂存站点索引。

    请参阅配置分阶段网站的增量索引

  7. (可选)在Definitions页面上,执行以下任一操作:

删除用户定义的元标记字段

您可以删除不再需要或使用的用户定义的元标记字段。

您无法删除预定义的元标记字段。 但是,您可以编辑某些字段。

请参阅编辑预定义或用户定义的元标记字段

在客户看到删除元标记的效果之前,必须重新构建网站索引。

删除用户定义的元标记字段

  1. 在产品菜单中,单击​Settings > Metadata > Definitions

  2. 在Definitions页面的表User-defined fields部分中,单击要删除的元标记字段名称行中的​Delete

  3. 在确认对话框中,单击​OK

  4. (可选)如果要预览结果,请重新构建暂存站点索引。

    请参阅配置分阶段网站的增量索引

  5. (可选)在Definitions页面上,执行以下任一操作:

关于注射

您可以使用Injections将内容插入网页,而无需自行编辑页面。

您可以将内容附加到特定的索引字段(如“target”或“body”),或将索引内容替换为新值。 例如,如果在“目标”元标记字段中插入新内容,则会像对硬编码页面内容一样处理此信息。 无论网站页面是否具有相应的内容,您都可以编辑任何预定义元标记字段的内容。 例如,您可以编辑以下预定义元标记字段名称的内容:

  • Alt
  • body
  • charset
  • 日期
  • desc
  • language
  • Target
  • title
  • url

使用测试现场注入

您可以选择在Staged Injections页面上使用​Test。 您可以输入测试字段名称(例如,“标题”或“正文”)、原始字段值(例如,“主页”),以及您网站中的测试URL。 结果值将显示为您的引用。 测试期间不会更改当前值。

使用字段注入定义

注入定义具有以下形式:

append|replace field [regexp] URL value

append|replacefieldURL。 和value项是必填项。 每行输入一个注入定义。 以下示例包含六种不同的注入定义。

replace title  https://www.yoursite.com/company/contactus.html Adobe: Contact Us 
append body https://www.yoursite.com/products/* On Sale Now! 
append target https://www.yoursite.com/news/bob_white/ Regular Weekly Feature 
append target regexp https://www.yoursite.com/travel/mr_travel/.*\column.html$ Regular Weekly Feature 
replace charset https://www.yoursite.com/japanese/intro.txt shift-jis 
replace language https://www.yoursite.com/japanese/intro.txt ja_JP

注入定义

描述

附加|替换

选择“append”以添加注入定义的值(“Adobe:联系我们”或“立即售出!” 中)到现有字段内容。 选择“替换”以使用定义的值覆盖现有字段内容。 如果字段当前没有内容,则无论使用哪种选项(追加或替换),都会自动添加定义的值。

字段

字段名称为必填字段。 以下是十个可使用的预定义字段名称:

  • Alt
  • body
  • charset
  • 日期
  • desc
  • language
  • 目标
  • title
  • url

每个字段名称都对应于您网站页面上的元素。 例如,如果指定字段名称 desc ,则可以将注入定义值添加到与网站页面上的描述Meta标记对应的字段中。

如果您的页面上不存在描述元标记,则定义的内容会为您创建该标记。 在 desc 注入中指定的内容会像硬编码的元描述内容一样显示在结果页面上。

您还可以创建具有相同字段名称的多个定义。 例如,假定您注射了以下内容:

replace  title https://www.mysite.com/ Welcome to My Site

replace  title https://www.mysite.com/company/*.html My Site: Contact

上述示例中的所有网站页面都将收到一个插入的标题“欢迎使用我的网站”。 “/company/”文件夹中的页面会插入一个新标题“My Site:联系我们”,以替换前一个页面。

请注意,注入的应用顺序是字段注入定义文本框中注入的顺序。 如果在同一位置的页面多次定义同一字段(本例中为“标题”),则优先使用后面的定义。

[regexp] — 可选。如果选择使用 regexp 选项,则定义的URL将被视为正则表达式。

请参阅正则表达式

在以下定义中:

replace target  regexp&nbsp;^.*/products/.*\.html$ Important information

“重要信息”将插入到与正则表达式 ^匹配的所有页面的“target”字段中。*/产品/.*\.html$ .

因此,您具有以下功能:

https://www.mydomain.com/products/page1.html     (Will receive "target" content)

https://www.mydomain.com/product/oldstuff.html     (Will not receive "target" content)

在以下示例中:

append&nbsp;title&nbsp;regexp&nbsp;^.*\.pdf$&nbsp;Millennium&nbsp;Science

此注入会将“Millennium Science”附加到所有以“.pdf”扩展名结尾的页面的“标题”内容。

URL

需要URL并指定插入哪些文档。

该URL是以下任一URL:

  • 完整路径,如https://www.mydomain.com/products.html中所示
  • 部分路径,如https://www.mydomain.com/products中所示
  • 使用通配符的URL,如https://www.mydomain.com/*.html中所示

URL值中不得包含任何空格字符。 如果使用 regexp 选项,则URL会被视为正则表达式。

value

值是必需的,用于替换现有字段内容或将其添加到现有字段内容中。 您可以为同一字段名称指定多个值。 例如:

附加 https://www.mysite.com/travel/ summerbeachsand

附加keys https://www.mysite.com/travel/fare/*.html cheal tickets

在上例中,单词“summer, beach, sand”会附加到“/travel/”目录所有页面的“keys”字段中。 “ceap tickets”一词还会附加到“/travel/fare/”目录所有页面的“keys”字段中。

另请参阅选择要爬网和索引的内容类型

添加字段注入定义

您可以使用Injections将内容插入网页,而无需自行编辑页面。

您可以选择在Injections页面上使用​Test。 您可以输入测试字段名称(例如,“标题”或“正文”)、原始字段值(例如,“主页”),以及您网站中的测试URL。 结果值将显示为您的引用。 测试期间不会更改当前值。

添加字段注入定义

  1. 在产品菜单中,单击​Settings > Metadata > Injections

  2. (可选)在Injections页面的Test Field Injections区域中,输入测试字段、测试原始值和测试URL,然后单击​Test

  3. 在Field Injection Definitions字段中,为每行输入一个注入定义。

  4. 单击 Save Changes.

  5. (可选)执行以下任一操作:

关于属性加载器

使用Attribute Loader定义其他输入源以扩充从网站爬网的数据。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

您可以使用数据馈送输入源访问以不同于通常在网站上发现的表单形式存储的内容。 使用可用的爬网方法之一执行此操作。 然后,可以将来自这些源的数据注入来自爬网内容的数据。

在Staged Attribute Loader Definitions页面中添加属性加载器定义后,可以更改除名称值和类型值之外的任何配置设置

Attribute Loader页面显示以下信息:

  • 您配置并添加的已定义属性加载器配置的名称。

  • 您添加的每个连接器的以下数据源类型之一:

    • 文本 — 简单的“平面”文件、以逗号分隔、制表符分隔或其他一致分隔的格式。
    • 信息源 - XML信息源。
  • 是否为下一个爬网和索引启用配置。

  • 数据源的地址。

另请参阅属性注入过程如何用于文本和信息源……

另请参阅关于配置多个属性加载器

另请参阅关于添加属性时使用预览……

属性注入过程如何用于属性加载器中的文本和信息源配置

步骤

过程

描述

1

下载数据源。

对于文本和信息源配置,只需下载一个简单的文件。

2

将下载的数据源划分为单个伪文档。

对于文本,每行以换行符分隔的文本都对应于单个文档,并使用指定的分隔符(如逗号或制表符)进行解析。

对于馈送,使用以下形式的正则表达式模式提取每个文档的数据:

<${Itemtag}>(.*?)</${Itemtag}>

使用属性加载器添加页面上的映射 ,创建数据的缓存副本,然后为Crawler创建链接列表。 数据存储在本地缓存中,并填充配置的字段。

解析后的数据被写入本地缓存。

稍后读取此缓存,以创建爬网程序所需的简单HTML文档。 例如:

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

<title> 元素仅在映射存在于“标题”元数据字段时生成。 同样,仅当存在到Body元数据字段的映射时,才会生成 <body> 元素。

重要信息:不支持为预定义URL元标记分配值。

对于所有其他映射,将为每个包含原始文档中找到数据的字段生成 <meta> 标记。

每个文档的字段都会添加到缓存中。 对于写入到缓存的每个文档,也会生成一个链接,如以下示例中所示:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

配置的映射必须有一个字段被标识为主键。 此映射构成从缓存获取数据时使用的键。

Crawler可识别URL 索引:方案前缀,然后可以访问本地缓存的数据。

3

爬取缓存的文档集。

索引:链接将添加到Crawler的待处理列表,并按正常爬网顺序进行处理。

4

处理每个文档。

每个链接的键值都与缓存中的一个条目相对应,因此爬取每个链接会导致从缓存中获取该文档的数据。 然后,该图像会“组合”到HTML图像中,并进行处理并添加到索引中。

关于配置多个属性加载器

您可以为任何帐户定义多个属性加载器配置。

添加属性加载器时,您可以选择使用功能​Setup Maps​下载数据源的示例。 检查数据是否适合。

属性加载器类型

描述

文本

通过先尝试制表符,然后再尝试垂直条( | ),最后用逗号()。 如果在单击设置图之前已指定分隔符值,则将改用该值。

最适合方案会在映射字段中填充相应标记和字段值的猜测值。 此外,还显示所解析数据的采样。 如果您知道文件包含标题行,请务必在第一行中选择标题。 设置函数使用此信息来更好地识别生成的映射条目。

信息源

下载数据源并执行简单的XML解析。

生成的XPath标识符显示在映射表的标记行中,并在字段中显示类似值。 这些行仅标识可用数据,并且不会生成更复杂的XPath定义。 但是,它仍然很有用,因为它描述了XML数据并标识了Itemtag。

注意: “设置映射”功能下载整个XML源以执行其分析。 如果文件较大,此操作可能会超时。

成功后,此函数将标识所有可能的XPath项目,其中许多项目是不想使用的。 请务必检查生成的映射定义,并删除您不需要或不需要的映射定义。

注意

“设置映射”功能可能不适用于大型XML数据集,因为其文件解析器尝试将整个文件读入内存。 因此,您可能会遇到内存不足的情况。 但是,当在索引时处理同一文档时,它不会读入内存。 相反,大文档会“在移动中”进行处理,而不会首先完全读入内存。

关于在添加属性加载器时使用“预览”

属性加载器数据在“索引”操作之前加载。

在添加属性加载器时,您可以选择使用功能​Preview​来验证数据,就像在保存它一样。 它会针对配置运行测试,但不会将配置保存到帐户。 测试访问配置的数据源。 但是,它会将下载缓存写入临时位置;它与索引爬网程序使用的主缓存文件夹不冲突。

仅预览按​Acct:IndexConnector-Preview-Max-Documents​控制的方式处理默认的5个文档。 预览的文档以源形式显示,如向索引爬网程序显示。 显示内容类似于Web浏览器中的“查看源”功能。 您可以使用标准导航链接导航预览集中的文档。

预览不支持XML配置,因为此类文档是直接处理的,不会下载到缓存中。

添加属性加载器定义

每个属性加载器配置定义一个数据源和映射,以将为该源定义的数据项与索引中的元数据字段相关联。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

在客户看到新定义和已启用定义的效果之前,请重新构建网站索引。

添加属性加载器定义

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader

  2. 在Stage Attribute Loader Definitions页面上,单击​Add New Attribute Loader

  3. 在Attribute Loader Add页面上,设置所需的配置选项。 可用的选项取决于您选择的​Type

    选项

    描述

    名称

    属性加载器配置的唯一名称。 您可以使用字母数字字符。 还允许使用字符“_”和“ — ”。

    类型

    数据源。 您选择的数据源类型会影响属性加载器添加页面上可用的生成选项。 您可以从以下选项中进行选择:

    • 文本

      简单的平面文本文件、以逗号分隔、制表符分隔或其他一致分隔的格式。 每个以换行符分隔的文本行对应于单个文档,并使用指定的分隔符进行解析。

      您可以从1(1)开始,将每个值或列映射到由列号引用的元数据字段。

    • 信息源

      下载包含多个“行”信息的主XML文档。

    数据源类型:文本

    启用

    将配置“打开”以供使用。 或者,您也可以关闭配置以阻止使用。

    注意:已禁用的属性加载器配置将被忽略。

    主机地址

    指定数据所在的服务器主机的地址。

    如果需要,您可以指定数据源文档的完整URI(统一资源标识符)路径,如以下示例中所示:

    https://www.somewhere.com/some_path/some_file.tsv

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.csv

    URI将划分为主机地址、文件路径、协议以及用户名和密码(可选)字段的相应条目

    文件路径

    指定简单平面文本文件、以逗号分隔、制表符分隔或其他一致分隔格式文件的路径。

    路径相对于主机地址的根。

    协议

    指定用于访问文件的协议。 您可以从以下选项中进行选择:

    • HTTP

      如有必要,您可以输入正确的身份验证凭据来访问HTTP服务器。

    • HTTPS

      如有必要,您可以输入正确的身份验证凭据来访问HTTPS服务器。

    • FTP

      您必须输入正确的身份验证凭据才能访问FTP服务器。

    • SFTP

      您必须输入正确的身份验证凭据才能访问SFTP服务器。

    • File(文件)

    超时

    指定FTP、SFTP、HTTP或HTTPS连接的超时时间(以秒为单位)。 此值必须介于30到300之间。

    重试

    指定失败的FTP、SFTP、HTTP或HTTPS连接的最大重试次数。 此值必须介于0和10之间。

    值为零(0)将阻止重试尝试。

    编码

    指定在指定的数据源文件中使用的字符编码系统。

    Delimiter(分隔符)

    指定要在指定的数据源文件中描绘每个字段时使用的字符。

    逗号字符()是分隔符的示例。 逗号用作字段分隔符,有助于分隔指定数据源文件中的数据字段。

    选择选项卡? 使用“水平制表符”字符作为分隔符。

    第一行中的标题

    表示数据源文件中的第一行仅包含标题信息,而不包含数据。

    过时的日子

    设置属性加载器数据下载之间的最小间隔。 在下载刷新频率间隔内发生的索引触发的下载将被忽略。 如果将此值设置为默认值1,则属性加载器数据在24小时内不会多次下载。 在下载刷新频率间隔内发生的所有搜索索引都使用上次下载的数据集。

    地图

    使用列号指定列到元数据的映射。

    • 指定列号,第一列为1(1)。 要为每列添加新映射行,请在操作下,单击 +

      您无需引用数据源中的每个列。 相反,您可以选择跳过值。

    • 字段

      定义用于每个生成的<meta>标记的名称属性值。

    • 元数据?

      使字段成为下拉列表,您可以从中为当前帐户选择定义的元数据字段。

      如果需要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本所使用的内容非常有用。

      请参阅关于筛选脚本

    • 主键?

      只有一个字段被标识为主键。 此字段将用作“外键”,以将属性加载器数据与索引中的相应文档进行匹配。

    • 删除HTML?

      选中此选项后,在此字段数据中找到的任何HTML标记都将被删除。

    • 操作

      用于向映射中添加行或从映射中删除行。 行的顺序不重要。

    数据源类型:信息源

    启用

    将配置“打开”以供使用。 或者,您也可以关闭配置以阻止使用。

    注意:已禁用的属性加载器配置将被忽略。

    主机地址

    指定数据所在的服务器主机的地址。

    如果需要,您可以指定数据源文档的完整URI(统一资源标识符)路径,如以下示例中所示:

    https://www.somewhere.com/some_path/some_file.tsv

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.csv

    URI将划分为主机地址、文件路径、协议以及用户名和密码(可选)字段的相应条目。

    文件路径

    指定包含多个“行”信息的主XML文档的路径。

    路径相对于主机地址的根。

    协议

    指定用于访问文件的协议。 您可以从以下选项中进行选择:

    • HTTP

      如有必要,您可以输入正确的身份验证凭据来访问HTTP服务器。

    • HTTPS

      如有必要,您可以输入正确的身份验证凭据来访问HTTPS服务器。

    • FTP

      您必须输入正确的身份验证凭据才能访问FTP服务器。

    • SFTP

      您必须输入正确的身份验证凭据才能访问SFTP服务器。

    • File(文件)

    Itemtag

    标识可用于标识您指定的数据源文件中各个XML行的XML元素。

    例如,在AdobeXML文档的以下馈送片段中,Itemtag值为记录:

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"> <metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=zh-Hans"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=zh-Hans"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    交叉引用字段名称

    指定一个元数据字段,其值将用作属性加载器配置数据中的查找“键”。 如果未选择任何值(—None—),则此配置的数据不可用于排名计算(规则 > 排名规则 > 编辑规则)。 当您选择值时,此字段的值将用于使用此配置数据交叉引用网站搜索/推销文档。

    过时的日子

    设置属性加载器数据下载之间的最小间隔。 在下载刷新频率间隔内发生的索引触发的下载将被忽略。 如果将此值设置为默认值1,则属性加载器数据在24小时内不会多次下载。 在下载刷新频率间隔内发生的所有搜索索引都使用上次下载的数据集。

    地图

    允许您使用XPath表达式指定XML元素到元数据的映射。

    • 标记

      指定解析的XML数据的XPath表示形式。 使用上面的示例AdobeXML文档,在选项Itemtag下,可以使用以下语法映射该文档:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      上述语法的转换如下:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        显示记录元素的属性映射到元数据字段 page-url

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        任何元素的内容属性(包含在元数据元素内),该元素包含在记录元素内,其名称属性为标题,并映射到元数据字段标题

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        任何元素的内容属性(包含在元数据元素内),该元素包含在记录元素内,其名称属性为描述,并映射到元数据字段 desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        包含在元数据元素内的任何元元素的内容属性(该元素包含在记录元素内,其名称属性为描述)映射到元数据字段正文

      XPath是一种相对复杂的表示法。 有关更多信息,请访问以下位置:

      请参阅 https://www.w3schools.com/xml/xpath_intro.asp

    • 字段

      定义用于每个生成的 <meta> 标记的名称属性值。

    • 元数据?

      使字段成为下拉列表,您可以从中为当前帐户选择定义的元数据字段。

      如果需要,字段值可以是未定义的元数据字段。 未定义的元数据字段有时对创建筛选脚本使用的内容非常有用。

      请参阅关于筛选脚本

      当属性加载器在任意映射字段上处理具有多个点击的XML文档时,这些值将合并到生成的缓存文档中的单个值中。 默认情况下,这些值使用逗号分隔符组合。 但是,假定相应的字段值是定义的元数据字段。 此外,该字段还设置了允许列表属性。 在这种情况下,将在串联中使用字段的列表分隔符值(定义的第一个分隔符)。

    • 主键?

      只有一个字段被标识为主键。 此字段将用作“外键”,以将属性加载器数据与索引中的相应文档进行匹配。

    • 删除HTML?

      选中此选项后,在此字段数据中找到的任何HTML标记都将被删除。

    • 操作

      用于向映射中添加行或从映射中删除行。 行的顺序不重要。

  4. (可选)单击​Setup Maps​下载数据源的示例。 检查数据是否适合。

  5. 单击​Add​将配置添加到Attribute Loader Definitions页面。

  6. 在Attribute Loader Definitions页面上,单击​rebuild your staged site index

  7. (可选)在Attribute Loader Definitions页面上,执行以下任一操作:

编辑属性加载器定义

您可以编辑已定义的现有属性加载器。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

并非所有属性加载器选项都可供您更改,例如Type下拉列表中的“属性加载器名称”或“类型”。

编辑属性加载器定义

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader

  2. 在Attribute Loader页面的Actions列标题下,单击​Edit​以获取要更改其设置的属性加载器定义名称。

  3. 在Attribute Loader Edit页面上,设置所需的选项。

    请参阅添加属性加载器定义下的选项表。

  4. 单击 Save Changes.

  5. (可选)在Attribute Loader Definitions页面上,单击​rebuild your staged site index

  6. (可选)在Attribute Loader Definitions页面上,执行以下任一操作:

复制属性加载器定义

您可以复制现有的属性加载器定义,以用作要创建的新属性加载器的基础。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

复制属性加载器定义时,默认情况下会禁用复制的定义。 要启用或“打开”定义,必须从Attribute Loader Edit页面对其进行编辑,然后选择​Enable

请参阅编辑属性加载器定义

复制属性加载器定义

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader

  2. 在Attribute Loader页面的Actions列标题下,单击​Copy ,以获取要复制其设置的属性加载器定义名称。

  3. 在Attribute Loader Copy页面上,输入定义的新名称。

  4. 单击 Copy.

  5. (可选)在Attribute Loader Definitions页面上,执行以下任一操作:

重命名属性加载器定义

您可以更改现有属性加载器定义的名称。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

重命名属性加载器定义

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader

  2. 在Attribute Loader页面的Actions列标题下,单击​Rename​以获取要更改的属性加载器定义名称。

  3. 在Attribute Loader Rename页面的Name字段中,输入定义的新名称。

  4. 单击 Rename.

  5. (可选)在Attribute Loader Definitions页面上,执行以下任一操作:

加载属性加载器数据

您可以将配置的属性加载器数据下载到站点搜索/促销中。

Data Load页面显示有关上次属性加载器数据加载操作状态的以下信息:

状态字段

描述

状态

指示上次数据加载尝试的成功或失败。 或者,它会显示正在进行的数据加载操作的状态。

开始时间

显示上次数据加载操作开始的日期和时间。

停止时间

显示上次数据加载操作的完成日期和时间。 或者,它表示当前数据加载操作仍在进行中。

加载属性加载器数据

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader

  2. 在Attribute Loader Definitions页面上,单击​Load Attribute Loader Data

  3. 在​Attribute Loader Data Load​页面上,执行下列操作之一:

    • 单击​Start Load​以开始加载操作。

      在数据加载操作期间,Progress​行会提供有关其进度的信息。

    • 单击​Stop Load​以停止加载操作。

  4. 单击​Close​返回到Attribute Loader Definitions页面。

预览属性加载器数据

您可以使用“预览”查看最近加载的属性加载器数据。

表中的Row列显示每行数据的编号,指示属性加载器值加载的原始顺序。

其余列显示与每个条目关联的值。

如果表为空,则表示您尚未加载任何属性加载器数据。 您可以关闭Attribute Loader Data Preview页面,然后加载属性加载器数据。

请参阅加载属性加载器数据

预览属性加载器数据

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader

  2. 在Attribute Loader Definitions页面的Actions列下,单击​Preview​以查看其下载数据的配置。

  3. 在Attribute Loader Data Preview页面上,使用页面顶部和底部的导航和查看选项来查看数据。

    单击表中的任意列标题,以对数据进行升序或降序排序。

  4. 执行以下任一操作:

    • 单击​Download to Desktop​下载表并将其另存为.xlt文件。
    • 预览完属性加载器数据并返回到之前查看的页面时,关闭页面。

查看属性加载器定义的设置

您可以查看现有属性加载器定义的配置设置。

将属性加载器定义添加到Attribute Loader Definitions页面后,便无法更改其类型设置。 您而是必须删除定义,然后添加新定义。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

查看属性加载器定义的设置

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader
  2. 在Attribute Loader页面的Actions列标题下,单击​Edit​以获取要查看或编辑其设置的属性加载器定义名称。

从最近的属性加载器数据加载中查看日志

可以使用View Log检查最近下载过程的属性加载器数据日志文件。 您还可以使用日志视图来监视正在运行的下载。

请参阅加载属性加载器数据

查看最近一次属性加载器数据加载中的日志

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader
  2. 在Attribute Loader Definitions页面上,单击​View Log。 日志页面、
  3. 在Attribute Loader Data Log页面上,使用页面顶部和底部的导航和查看选项来查看日志信息。
  4. 完成后,关闭页面以返回到Attribute Loader Definitions页面。

删除属性加载器定义

您可以删除不再需要或使用的现有属性加载器定义。

注意

要使用属性加载器,您可能需要由Adobe帐户代表或Adobe支持在您的帐户中启用它。

删除属性加载器定义

  1. 在产品菜单中,单击​Settings > Metadata > Attribute Loader
  2. 在Attribute Loader Definitions页面的Actions列标题下,单击​Delete​以获取要删除的属性加载器定义名称。
  3. 在Attribute Loader Delete页面上,单击​Delete

在此页面上