關於編目功能表

使用「編目」功能表設定日期和URL遮罩、密碼、內容類型、連線、表單定義和URL入口點。

關於URL入口點

大部分網站都有一個主要進入點或首頁,供客戶最初造訪。 此主要入口點是URL地址,搜索自動機從中開始索引搜索。 不過,如果您的網站有多個網域或子網域,或網站的部分並未從主要進入點連結,您可以使用URL進入點來新增更多登入點。

每個指定URL入口點下的所有網站頁面都會編製索引。 您可以結合URL入口點與遮罩,以精確控制您要為網站的哪些部分建立索引。 您必須先重建網站索引,客戶才能看到URL進入點設定的影響。

主要入口點通常是您要索引和搜尋之網站的URL。 您可在「帳戶設定」中設定此主要進入點。

請參閱配置帳戶設定

指定主要URL入口點後,您可以選擇指定要依序編目的其他入口點。 通常,您會為未從主要登入點下的頁面連結的網頁指定其他登入點。 如下列範例所示,當您的網站涵蓋多個網域時,請指定其他登入點:

https://www.domain.com/

https://www.domain.com/not_linked/but_search_me_too/

https://more.domain.com/

在下表中,您可以使用下列一個或多個以空格分隔的關鍵字來限定每個入口點。 這些關鍵字會影響頁面的索引方式。

重要:請務必將指定關鍵字與入口點分開,並以空格分隔;逗號不是有效的分隔符號。

關鍵字

說明

noindex

如果您不想為登入點頁面上的文字建立索引,但想要遵循頁面的連結,請新增 noindex

將關鍵字與入口點分隔,並加上空格,如下列範例所示:

https://www.my-additional-domain.com/more_pages/main.html noindex

此關鍵字等同於具有的機器人元標籤 content="noindex" ) <head> .. 登入點頁面的 </head> 標籤。

no追隨

如果要為登入點頁面中的文字建立索引,但不想遵循頁面的任何連結,請新增 nofollow

將關鍵字與入口點分隔,並加上空格,如下列範例所示:

https://www.domain.com/not_linked/directory_listing&nbsp;nofollow

此關鍵字等同於具有的機器人元標籤 content="nofollow" <head> .. 登入點頁面的 </head> 標籤。

表單

當登入點為登入頁面時, form 通常使用,以便搜尋機器人在對網站進行編目之前,能提交登入表單並接收適當的cookie。 使用"form"關鍵字時,入口點頁面沒有索引,而搜尋機器人不會將入口點頁面標示為已編目。 使用 nofollow 如果您不希望搜尋機器人遵循頁面的連結。

另請參閱關於內容類型

另請參閱關於索引連接器

新增多個要建立索引的URL登入點

如果您的網站有多個網域或子網域,而您想要進行編目,則可使用URL進入點來新增更多URL。

若要設定網站的主要URL進入點,請使用「帳戶設定」。

請參閱配置帳戶設定

要添加要編製索引的多個URL入口點

  1. 在產品功能表中,按一下「Settings > Crawling > URL Entrypoints」。

  2. 在URL Entrypoints頁面的Entrypoints欄位中,每行輸入一個URL地址。

  3. (可選)在​Add Index Connector Configurations​下拉清單中,選擇要添加作為索引入口點的索引連接器。

    只有在您先前已新增一或多個索引連接器定義時,下拉式清單才可用。

    請參閱添加索引連接器定義

  4. 按一下 Save Changes.

  5. (選用)執行下列任一操作:

關於URL遮罩

URL遮罩是決定哪些網站記錄搜尋自動機索引或非索引的模式。

請務必重建網站索引,讓客戶可看到URL遮罩的結果。

請參閱配置分段網站的增量索引

以下是您可使用的兩種URL遮罩:

  • 包含URL遮罩
  • 排除URL遮罩

包括URL掩碼指示搜索自動機為匹配掩碼模式的任何文檔建立索引。

排除URL遮罩會指示搜尋自動機為相符的檔案建立索引。

當搜尋機器人從連結經由您的網站連結時,它會遇到URL並尋找符合這些URL的遮罩。 第一個相符項目會決定要將該URL納入索引,還是從索引中排除。 如果沒有任何遮罩符合遇到的URL,則會從索引中捨棄該URL。

系統會自動產生入口點URL的包含URL遮罩。 此行為可確保對您網站上遇到的所有檔案建立索引。 此外,它還可方便地移除「離開」您網站的連結。 例如,如果索引頁面連結到https://www.yahoo.com,則搜索自動機不會為該URL建立索引,因為它與入口點URL自動生成的包含掩碼不匹配。

您指定的每個URL遮色片都必須位在一行上。

遮罩可指定下列任一項:

  • https://www.mydomain.com/products.html中的完整路徑。

  • https://www.mydomain.com/products中的部分路徑。

  • 使用萬用字元的URL,如https://www.mydomain.com/*.html中。

  • 規則運算式(適用於進階使用者)。

    要使掩碼成為規則表達式,請在掩碼類型(excludeinclude)和URL掩碼之間插入關鍵字regexp

以下是簡單的排除URL遮罩範例:

exclude https://www.mydomain.com/photos

由於此示例是排除URL掩碼,因此任何匹配該模式的文檔都不會編製索引。 此模式與遇到的任何項目(包括檔案和資料夾)相匹配,因此https://www.mydomain.com/photos.htmlhttps://www.mydomain.com/photos/index.html(兩者均與排除URL相匹配)不會建立索引。 若要僅比對/photos/資料夾中的檔案,URL遮罩必須包含尾隨斜線,如下列範例所示:

exclude https://www.mydomain.com/photos/

下列排除遮罩範例使用萬用字元。 它會告訴搜尋自動機忽略副檔名為「.pdf」的檔案。 搜索自動機不會將這些檔案添加到索引中。

exclude *.pdf

簡單的包含URL遮罩如下:

include https://www.mydomain.com/news/

只有以URL入口點的一系列連結連結連結的檔案,或本身作為URL入口點使用的檔案,才會編製索引。 僅將文檔的URL列為包含URL掩碼時,不會為未連結的文檔建立索引。 若要將未連結的文檔添加到索引中,可以使用URL入口點功能。

請參閱關於URL入口點

包含遮罩和排除遮罩可共同運作。 您可以建立排除URL遮罩,但同時包含一或多個具有包含URL遮罩的已排除頁面,以排除網站的大部分,使其無法建立索引。 例如,假設您的入口點URL如下:

https://www.mydomain.com/photos/

搜索自動機對/photos/summer//photos/spring//photos/fall/下的所有頁面進行編目和索引(假設每個目錄中的photos資料夾中至少有一個頁面的連結)。 發生此行為是因為連結路徑使搜索自動機能夠查找/summer//spring//fall/中的文檔、資料夾和資料夾URL與入口點URL自動生成的包含掩碼匹配。

您可以選擇排除/fall/資料夾中所有具有排除URL遮罩的頁面,如下列範例所示:

exclude https://www.mydomain.com/photos/fall/

或者,只選擇性地將/photos/fall/redleaves4.html包含在具有以下URL掩碼的索引中:

include https://www.mydomain.com/photos/fall/redleaves4.html

為了讓上述兩個遮色片範例如預期般運作,會先列出包含遮色片,如下所示:

include https://www.mydomain.com/photos/fall/redleaves4.html 
exclude https://www.mydomain.com/photos/fall/

由於搜索自動機按照它們所列的順序執行指令,因此搜索自動機首先包括/photos/fall/redleaves4.html,然後排除/fall資料夾中的其餘檔案。

如果以相反的方式指定指令,如下所示:

exclude https://www.mydomain.com/photos/fall/ 
include https://www.mydomain.com/photos/fall/redleaves4.html

然後不包括/photos/fall/redleaves4.html,即使掩碼指定包括它。

首先出現的URL遮色片一律優先於稍後出現在遮色片設定中的URL遮色片。 此外,如果搜索自動機遇到的頁面與包含URL掩碼和排除URL掩碼匹配,則首先列出的掩碼始終優先。

請參閱配置分段網站的增量索引

關於使用關鍵字與URL遮罩

您可以使用一或多個空格分隔的關鍵字來限定每個包含掩碼,這些關鍵字會影響匹配頁面的索引方式。

逗號在遮罩和關鍵字之間作為分隔符無效;您只能使用空格。

關鍵字

說明

noindex

如果您不想為符合URL遮色片的頁面上的文字建立索引,但想要遵循相符的頁面連結,請新增 noindex 。 請務必將關鍵字與遮色片分開,並加上空格,如下列範例所示:

include&nbsp;*.swf&nbsp;noindex

上例指定搜索自動機會遵循檔案中的所有連結,其中 .swf 擴充功能,但禁用對這些檔案中包含的所有文本的索引。

noindex 關鍵字等同於具有的機器人元標籤 content="noindex" <head>...</head> 相符頁面的標籤。

no追隨

如果您想要為符合URL遮色片的頁面上的文字建立索引,但不想遵循相符頁面的連結,請新增 nofollow 。 請務必將關鍵字與遮色片分開,並加上空格,如下列範例所示:

include&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

nofollow 關鍵字等同於具有的機器人元標籤 content="nofollow" <head>...</head> 相符頁面的標籤。

regexp

用於包含和排除遮罩。

任何URL遮色片前面都有 regexp 被視為規則運算式。 如果搜索自動機遇到與排除規則表達式URL掩碼匹配的文檔,則這些文檔不會編入索引。 如果搜索自動機遇到的文檔與包含規則表達式URL掩碼匹配,則這些文檔將被編入索引。 例如,假設您有下列URL遮罩:

exclude&nbsp;regexp&nbsp;^.*/products/.*\.html$

搜索自動機會排除匹配檔案,例如 https://www.mydomain.com/products/page1.html

如果您有下列排除規則運算式URL遮罩:

exclude&nbsp;regexp&nbsp;^.*\?..*$

搜尋自動機不會包含任何包含CGI參數的URL,例如 https://www.mydomain.com/cgi/prog/?arg1=val1&arg2=val2

如果您有下列包含規則運算式URL遮罩:

include&nbsp;regexp&nbsp;^.*\.swf$&nbsp;noindex

搜索自動機將跟蹤副檔名為"。swf"的檔案中的所有連結。 此 noindex 關鍵字還指定匹配檔案的文本未編入索引。

請參閱規則運算式

新增URL遮罩以索引或不是網站的索引部分

您可以使用URL Masks來定義要或不要對網站的哪些部分進行編目和索引。

使用「測試URL掩碼」欄位來測試索引後是否包含文檔。

請務必重建網站索引,讓客戶可看到URL遮罩的結果。

請參閱配置分段網站的增量索引

若要新增URL遮罩至網站的索引部分或非索引部分

  1. 在產品功能表中,按一下「Settings > Crawling > URL Masks」。

  2. (可選)在URL Masks頁面的​Test URL Masks​欄位中,輸入網站的測試URL遮罩,然後按一下​Test

  3. 在URL Masks欄位中,鍵入include(以添加要爬網和索引的網站),或鍵入exclude(以阻止網站被爬網和索引),然後鍵入URL掩碼地址。

    每行輸入一個URL掩碼地址。 範例:

    include https://www.mycompany.com/summer 
    include https://www.mycompany.com/spring 
    exclude regexp .*\.xml 
    exclude https://www.mycompany.com/fall
    
  4. 按一下 Save Changes.

  5. (選用)執行下列任一操作:

關於日期遮色片

您可以根據檔案的年齡,使用「日期遮罩」來包含或排除搜尋結果中的檔案。

請務必重建網站索引,讓客戶可看到URL遮罩的結果。

請參閱配置分段網站的增量索引

以下是兩種日期遮色片可供使用:

  • 包含日期遮罩(「include-days」和「include-date」)

    包含日期在指定日期或之前的日期掩碼索引檔案。

  • 排除日期遮罩(「exclude-days」和「exclude-date」)

    排除日期在指定日期或之前的日期遮罩索引檔案。

依預設,檔案日期是由中繼標籤資訊決定。 如果未找到元標籤,則從搜索自動機下載檔案時從伺服器接收的HTTP標頭確定檔案的日期。

您指定的每個日期遮色片都必須位於單獨的一行。

遮罩可指定下列任一項:

  • https://www.mydomain.com/products.html中的完整路徑
  • https://www.mydomain.com/products中的部分路徑
  • 使用萬用字元https://www.mydomain.com/*.html的URL
  • 規則運算式。 若要將遮罩設為規則運算式,請在URL前面插入關鍵字regexp

包含和排除日期遮罩都可透過下列兩種方式之一指定日期。 僅當在指定日期或之前建立了匹配的檔案時,才應用掩碼:

  1. 幾天。 例如,假設您的日期遮色片如下:

    exclude-days 30 https://www.mydomain.com/docs/archive/)
    

    返回指定天數。 如果檔案的日期是到達日期之前或之後,則會套用遮罩。

  2. 使用YYYY-MM-DD格式的實際日期。 例如,假設您的日期遮色片如下:

    include-date 2011-02-15 https://www.mydomain.com/docs/archive/)
    

    如果匹配的文檔日期在指定日期或之前,則應用日期掩碼。

以下是簡單的排除日期遮罩範例:

exclude-days 90 https://www.mydomain.com/docs/archive

因為這是排除日期遮罩,任何符合模式的檔案都不會建立索引,且會保留90天或更舊。 排除文檔時,不會對任何文本編製索引,也不會從該檔案中跟隨任何連結。 會有效忽略檔案。 在此範例中,檔案和資料夾都可能符合指定的URL模式。 請注意,https://www.mydomain.com/docs/archive.htmlhttps://www.mydomain.com/docs/archive/index.html都符合模式,且如果90天或更舊,則未編列索引。 若要僅比對/docs/archive/資料夾中的檔案,日期遮罩必須包含尾隨斜線,如下所示:

exclude-days 90 https://www.mydomain.com/docs/archive/

日期遮色片也可搭配萬用字元使用。 下列排除遮罩會告訴搜尋自動機忽略副檔名為"。pdf"的檔案,這些檔案日期為2011-02-15年或之前。 搜索自動機不會向索引添加任何匹配的檔案。

exclude-date 2011-02-15 *.pdf

包含日期遮罩看起來類似,只有相符的檔案會新增至索引。 以下包含日期掩碼示例告訴搜索自動機從網站/docs/archive/manual/區域中任何存在零天或更舊的檔案中索引文本。

include-days 0 https://www.mydomain.com/docs/archive/manual/

包含遮罩和排除遮罩可共同運作。 例如,您可以建立排除日期遮色片,但同時包含一或多個具有包含URL遮色片的已排除頁面,借此排除大部分網站的索引不。 如果您的入口點URL如下:

https://www.mydomain.com/archive/

搜索自動機對/archive/summer//archive/spring//archive/fall/下的所有頁面進行編目和索引(假設每個資料夾中的archive資料夾中至少有一個頁面的連結)。 發生此行為是因為連結路徑使搜索自動機能夠「查找」/summer//spring//fall/資料夾中的檔案,並且資料夾URL與入口點URL自動生成的包含掩碼匹配。

請參閱關於URL入口點

請參閱配置帳戶設定

您可以選擇在/fall/資料夾中排除90天以上的所有頁面,並搭配排除日期遮罩,如下所示:

exclude-days 90 https://www.mydomain.com/archive/fall/

您可以選擇性地僅包含/archive/fall/index.html(無論其存在的時間 — 任何0天或更舊的檔案都匹配),作為具有以下日期掩碼的索引的一部分:

include-days 0 https://www.mydomain.com/archive/fall/index.html

為了讓上述兩個遮色片範例如預期般運作,您必須先將包含遮色片列在下列:

include-days 0 https://www.mydomain.com/archive/fall/index.html 
exclude-days 90 https://www.mydomain.com/archive/fall/

由於搜索自動機按照指定的順序執行指令,因此搜索自動機首先包括/archive/fall/index.html,然後排除/fall資料夾中的其餘檔案。

如果以相反的方式指定指令,如下所示:

exclude-days 90 https://www.mydomain.com/archive/fall/ 
include-days 0 https://www.mydomain.com/archive/fall/index.html 

然後不包含/archive/fall/index.html,即使掩碼指定它應該包含。 先出現的日期遮色片一律優先於稍後可能出現在遮色片設定中的日期遮色片。 此外,如果搜索自動機遇到的頁面既匹配了包含日期掩碼又匹配了排除日期掩碼,則首先列出的掩碼始終優先。

請參閱配置分段網站的增量索引

關於使用關鍵字與日期遮罩

您可以使用一或多個空格分隔的關鍵字來限定每個包含掩碼,這些關鍵字會影響匹配頁面的索引方式。

逗號在遮罩和關鍵字之間作為分隔符無效;您只能使用空格。

關鍵字

說明

noindex

如果您不想在包含遮色片指定的日期或之前,為頁面上的文字建立索引,請新增 noindex 之後包含日期遮色片,如下所示:

include-days&nbsp;10&nbsp;*.swf&nbsp;noindex

請務必將關鍵字與遮色片分開,並加上空格。

上例指定搜索自動機遵循副檔名為「.swf」(10天或更舊)的檔案中的所有連結。 但是,它禁用對這些檔案中包含的所有文本的索引。

您可能希望確保未對舊檔案的文本編製索引,但仍遵循這些檔案的所有連結。 在這種情況下,請使用包含日期遮色片搭配「noindex」關鍵字,而非使用排除日期遮色片。

no追隨

如果要為日期在包含遮罩指定之日期或之前的頁面上的文字建立索引,但您不想遵循相符頁面的連結,請新增 nofollow 之後包含日期遮色片,如下所示:

include-days&nbsp;8&nbsp;https://www.mydomain.com/photos&nbsp;nofollow

請務必將關鍵字與遮色片分開,並加上空格。

nofollow 關鍵字等同於具有的機器人元標籤 content="nofollow" <head>...</head> 標籤。

server-date

用於包含和排除遮罩。

搜索自動機通常在檢查日期掩碼之前下載並分析每個檔案。 發生此行為是因為某些檔案類型可以在檔案本身內指定日期。 例如,HTML檔案可以包含設定檔案日期的中繼標籤。

如果您要根據檔案的日期排除許多檔案,而您不想在伺服器上造成不必要的負載,則可使用 server-date

此關鍵字指示搜索機器人信任伺服器返回的檔案的日期,而不是解析每個檔案。 例如,如果檔案是90天或更舊,則下列排除日期遮罩會根據伺服器在HTTP標題中傳回的日期,忽略與URL相符的頁面:

exclude-days&nbsp;90&nbsp;https://www.mydomain.com/docs/archive&nbsp;server-date

如果伺服器傳回的日期是90天或更久以前, server-date 指定不從伺服器下載排除的文檔。 這意味著,您的文檔的索引時間會更快,伺服器上的負載也會降低。 若 未指定 server-date ,搜索自動機將忽略伺服器在HTTP標題中返回的日期。 而是會下載並檢查每個檔案,以查看是否指定日期。 如果未在檔案中指定日期,則搜索自動機將使用伺服器返回的日期。

您不應使用 server-date 如果您的檔案包含覆蓋伺服器日期的命令。

regexp

同時用於包含和排除遮罩。

前面有的任何日期遮色片 regexp 被視為規則運算式。

如果搜索自動機遇到的檔案與排除規則運算式日期掩碼匹配,則不會為這些檔案建立索引。

如果搜索自動機遇到與包含規則表達式日期掩碼匹配的檔案,則會為這些文檔建立索引。

例如,假設您有下列日期遮色片:

exclude-days&nbsp;180&nbsp;regexp&nbsp;.*archive.*

遮罩會告訴搜尋自動機排除180天或更舊的相符檔案。 即URL中包含「封存」一字的檔案。

請參閱規則運算式

新增日期遮罩以索引或不為網站的某些部分建立索引

您可以使用「日期遮罩」,根據檔案的年齡,在客戶搜尋結果中包含或排除檔案。

使用​Test Date​和​Test URL​欄位來測試索引後是否包含檔案。

請務必重建網站索引,讓客戶可看到URL遮罩的結果。

請參閱配置分段網站的增量索引

若要將日期遮罩新增至網站的索引,或不要為網站的索引部分新增

  1. 在產品功能表中,按一下「Settings > Crawling > Date Masks」。

  2. (可選)在Date Masks頁面的​Test Date​欄位中,輸入格式為YYYY-MM-DD的日期(例如2011-07-25);在​Test URL​欄位中,輸入網站的URL遮罩,然後按一下​Test

  3. 在Date Masks欄位中,為每行輸入一個日期掩碼地址。

  4. 按一下 Save Changes.

  5. (選用)執行下列任一操作:

關於密碼

若要存取受HTTP基本驗證保護的網站部分,您可以新增一或多個密碼。

在客戶看到密碼設定的效果之前,您必須重建網站索引。

請參閱配置分段網站的增量索引

在Passwords頁面上,按一行鍵入每個密碼。 密碼由URL或領域、用戶名和密碼組成,如以下示例所示:

https://www.mydomain.com/ myname mypassword

您也可以指定領域,而不是使用URL路徑(如上所示)。

要確定要使用的正確領域,請使用瀏覽器開啟受密碼保護的網頁,然後查看「輸入網路密碼」對話框。

領域名稱,在此例中為「我的網站領域」。

使用上述領域名稱,您的密碼可能如下所示:

My Site Realm myusername mypassword

如果您的網站有多個領域,您可以像以下示例一樣,在單獨的一行中輸入每個領域的用戶名和密碼,以建立多個密碼:

Realm1 name1 password1 
Realm2 name2 password2 
Realm3 name3 password3

您可以混合包含URL或領域的密碼,使您的密碼清單看起來可能如下所示:

Realm1 name1 password1 
https://www.mysite.com/path1/path2 name2 password2 
Realm3 name3 password3 
Realm4 name4 password4 
https://www.mysite.com/path1/path5 name5 password5 
https://www.mysite.com/path6 name6 password6

在上面的清單中,使用的第一個密碼包含符合伺服器驗證請求的領域或URL。 即使https://www.mysite.com/path1/path2/index.html處的檔案位於Realm3中,例如name2password2也被使用,因為與URL定義的密碼列在與領域定義的密碼的上方。

新增密碼以存取需要驗證的網站區域

您可以使用密碼來訪問網站中受密碼保護的區域,以便進行編目和建立索引。

在客戶看到密碼添加的效果之前,請務必重建網站索引

請參閱配置分段網站的增量索引

新增密碼以存取需要驗證的網站區域

  1. 在產品功能表中,按一下「Settings > Crawling > Passwords」。

  2. 在Passwords頁的​Passwords​欄位中,輸入領域或URL及其關聯的用戶名和密碼,用空格分隔。

    不同行上的領域密碼和URL密碼的示例:

    Realm1 name1 password1 
    https://www.mysite.com/path1/path2 name2 password2
    

    每行僅添加一個密碼。

  3. 按一下 Save Changes.

  4. (選用)執行下列任一操作:

關於內容類型

可以使用Content Types選擇要對此帳戶進行編目和索引的檔案類型。

您可以選擇進行編目和索引的內容類型包括PDF文檔、文本文檔、AdobeFlash電影、來自Microsoft Office應用程式(如Word、Excel和Powerpoint)的檔案,以及MP3檔案中的文本。 在選取的內容類型中找到的文字會與您網站上的所有其他文字一起搜尋。

在客戶看到「內容類型」設定的效果之前,您必須重建網站索引。

請參閱配置分段網站的增量索引

關於索引MP3音樂檔案

如果在Content Types頁面上選擇選項​Text in MP3 Music Files,則會以兩種方式之一對MP3檔案進行爬網和索引。 第一種也是最常見的方式來自HTML檔案中的錨點href標籤,如下所示:

<a href="MP3-file-URL"></a>

第二種方式是輸入MP3檔案的URL作為URL入口點。

請參閱關於URL入口點

MP3檔案的MIME類型為"audio/mpeg"。

請注意,MP3音樂檔案的大小可能非常大,即使它們通常只包含少量文本。 例如,MP3檔案可以選擇儲存相簿名稱、藝術家名稱、歌曲標題、歌曲類型、發行年份和注釋等。 此資訊會儲存在檔案的結尾處,即所謂的TAG。 包含TAG資訊的MP3檔案的索引方式如下:

  • 歌曲標題視為HTML頁面的標題。
  • 註解的處理方式與為HTML頁面定義的說明相同。
  • 類型視為為HTML頁面定義的關鍵字。
  • 藝人名稱、相簿名稱和發行年份視為HTML頁面的內文。

請注意,網站上所編目和編列索引的每個MP3檔案都計為一頁。

如果您的網站包含許多大型MP3檔案,則可能超過帳戶的索引位元組限制。 如果發生此情況,您可以取消選取Content Types頁面上的​Text in MP3 Music Files,以防止對網站上的所有MP3檔案進行索引。

如果您只想阻止網站上某些MP3檔案的索引,可以執行下列操作之一:

  • <nofollow></nofollow>標籤環繞連結至MP3檔案的錨記。 搜尋自動機不會遵循這些標籤之間的連結。

  • 將MP3檔案的URL新增為排除遮罩。

    請參閱關於URL遮罩

選擇要爬網和索引的內容類型

可以使用Content Types選擇要對此帳戶進行編目和索引的檔案類型。

您可以選擇進行編目和索引的內容類型包括PDF文檔、文本文檔、AdobeFlash電影、來自Microsoft Office應用程式(如Word、Excel和Powerpoint)的檔案,以及MP3檔案中的文本。 在選取的內容類型中找到的文字會與您網站上的所有其他文字一起搜尋。

在客戶看到「內容類型」設定的效果之前,您必須重建網站索引。

請參閱配置分段網站的增量索引

要對中文、日文或韓文MP3檔案進行爬網和索引,請完成以下步驟。 然後,在​Settings > Metadata > Injections​中,指定用於編碼MP3檔案的字元集。

請參閱關於插入

選擇要編目和索引的內容類型

  1. 在產品功能表中,按一下「Settings > Crawling > Content Types」。

  2. 在Content Types頁面上,檢查您要在網站上進行編目和索引的檔案類型。

  3. 按一下 Save Changes.

  4. (選用)執行下列任一操作:

關於連線

您可以使用「連線」來新增最多10個HTTP連線,搜尋機器人會使用這些連線來為您的網站建立索引。

增加連線數量可大幅減少完成編目和索引所需的時間。 不過,請注意,每增加一個連線都會增加伺服器的負載。

添加連接以提高索引速度

您可以使用「連線」來增加Crawler使用的同時HTTP連線數,以減少為網站建立索引所花的時間。 最多可以添加10個連接。

請注意,每增加一個連線,都會增加伺服器上的負載。

添加連接以提高索引速度

  1. 在產品功能表中,按一下「Settings > Crawling > Connections」。

  2. 在Parallel Indexing Connections頁的​Number of Connections​欄位中,輸入要添加的連接數(1-10)。

  3. 按一下 Save Changes.

  4. (選用)執行下列任一操作:

關於表單提交

您可以使用表單提交功能來協助您識別和處理網站上的表單。

在網站的編目和索引期間,遇到的每個表單都會與您新增的表單定義進行比較。 如果表單與表單定義相符,則會提交表單以進行索引。 如果表單符合多個定義,則會針對每個符合的定義提交表單一次。

新增在網站上建立表單索引的表單定義

您可以使用Form Submission來協助處理在您的網站上識別的表單,以便建立索引。

請務必重建網站索引,讓客戶可看到變更的結果。

請參閱配置分段網站的增量索引

為網站上的表單建立索引添加表單定義

  1. 在產品功能表中,按一下「Settings > Crawling > Form Submission」。

  2. 在Form Submission頁面上,按一下​Add New Form

  3. 在Add Form Definition頁面上,設定Form Recognition和Form Submission選項。

    Form Definition頁面上Form Recognition區段中的五個選項可用來識別您的網頁中可處理的表單。

    Form Submission區段中的三個選項可用來指定隨表單提交至網站伺服器的參數和值。

    每行輸入一個識別或提交參數。 每個參數都必須包含名稱和值。

    選項

    說明

    表單識別

    頁面URL遮色片

    識別包含表單的網頁。 若要識別出現在單一頁面上的表單,請輸入該頁面的URL,如下列範例所示:

    https://www.mydomain.com/login.html

    若要識別出現在多個頁面上的表單,請指定使用萬用字元來說明頁面的URL遮罩。 要識別在 https://www.mydomain.com/register/ 下的任何ASP頁面上遇到的表單,可以指定以下內容:

    https://www.mydomain.com/register/*.asp&nbsp;

    您也可以使用規則運算式來識別多個頁面。 只需指定 regexp 關鍵字,如下列範例所示:

    regexp&nbsp;^https://www\.mydomain\.com/.*/login\.html$

    動作URL遮色片

    識別 <form> 標籤。

    如同頁面URL遮罩,動作URL遮罩可採用單一URL、含萬用字元的URL或規則運算式的形式。

    URL遮罩可以是下列任一項:

    • 完整路徑,如下所示: https://www.mydomain.com/products.html
    • 部分路徑,如下所示: https://www.mydomain.com/products
    • 使用萬用字元的URL,如下所示: https://www.mydomain.com/*.html
    • 規則運算式,如下所示: regexp&nbsp^https://www\.mydomain\.com/.*/login\.html$

    如果您不想為以URL遮色片或動作URL遮色片所識別之頁面上的文字建立索引,或如果您不想在這些頁面上追蹤連結,則可使用 noindex nofollow 關鍵字。 您可以使用URL遮罩或入口點將這些關鍵字新增至遮罩。

    請參閱關於URL入口點

    請參閱關於URL遮罩

    表單名稱遮色片

    識別表單(若 網頁中的 <form> 標籤包含名稱屬性。

    您可以使用簡單名稱( login_form ),帶有通配符的名稱( )或規則運算式( regexp ^.*authorize.*$ )。 form*

    您通常可將此欄位保留為空白,因為表單通常沒有名稱屬性。

    表單ID遮色片

    識別表單(若 網頁中的 <form> 標籤包含id屬性。

    您可以使用簡單名稱( login_form ),帶有通配符的名稱( )或規則運算式( regexp ^.*authorize.*$ )。 form*

    您通常可將此欄位保留為空白,因為表單通常沒有名稱屬性。

    參數

    識別包含或不包含已命名參數或具有特定值的已命名參數的表單。

    例如,要標識包含預設為rick_brough@mydomain.com的電子郵件參數(密碼參數,但不是名字參數)的表單,可以指定以下參數設定,每行一個:

    email=rick_brough@mydomain.com password not first-name

    表單提交

    覆寫動作URL

    指定表單提交的目標與表單的動作屬性中指定的目標不同。

    例如,當透過JavaScript函式提交表單時,您可能會使用此選項,此函式會建構與表單中所含URL值不同的URL值。

    覆蓋方法

    指定表單提交的目標與表單的動作屬性中所使用的不同,以及提交JavaScript已變更方法的時間。

    所有表單參數的預設值( <input> 標籤,包括隱藏欄位),預設值 <option> 來自 <select> 標籤,以及 <textarea>...</textarea> 標籤)會從網頁讀取。 不過,在參數欄位中,表單提交區段中列出的任何參數,都會以表單預設值取代。

    參數

    您可以在表單提交參數前置詞為 not 關鍵字。

    為參數加上前置詞時 not ,表單提交時不會提交。 此行為適用於應取消選取的提交核取方塊。

    例如,假設您要提交下列參數:

    • 包含值的電子郵件參數 nobody@mydomain.com
    • 包含值的密碼參數 tryme
    • 取消選取mycheckbox參數。
    • 其他 <form> 參數作為預設值

    您的表單提交參數如下所示:

    email=nobody@mydomain.com password=tryme not mycheckbox

    方法屬性 網頁上的 <form> 標籤可用來決定是否使用GET方法或POST方法將資料傳送至您的伺服器。

    <form> 標籤不包含方法屬性,則會使用GET方法提交表單。

  4. 按一下 Add.

  5. (選用)執行下列任一操作:

編輯表單定義

如果網站上的表單已變更,或您只需變更定義,即可編輯現有的表單定義。

請注意,Form Submission頁面上沒有History功能可還原您對表單定義所做的任何變更。

請務必重建網站索引,讓客戶可看到變更的結果。

請參閱配置分段網站的增量索引

要編輯表單定義

  1. 在產品功能表中,按一下「Settings > Crawling > Form Submission」。

  2. 在Form Submission頁面上,按一下要更新的表單定義右側的​Edit

  3. 在Edit Form Definition頁面上,設定Form Recognition和Form Submission選項。

    請參閱新增表單定義以在您的網站上建立表單索引下的選項表

  4. 按一下 Save Changes.

  5. (選用)執行下列任一操作:

刪除表單定義

如果您的網站上已不存在表單,或您不想再處理特定表單並為其建立索引,您可以刪除現有的表單定義。

請注意,Form Submission頁面上沒有History功能可還原您對表單定義所做的任何變更。

請務必重建網站索引,讓客戶可看到變更的結果。

請參閱配置分段網站的增量索引

刪除表單定義

  1. 在產品功能表中,按一下「Settings > Crawling > Form Submission」。

  2. 在Form Submission頁面上,按一下要刪除的表單定義右側的​Delete

    請務必選擇要刪除的正確表單定義。 在下一步中按一下​Delete​時,沒有刪除確認對話框。

  3. 在Delete Form Definition頁面上,按一下​Delete

  4. (選用)執行下列任一操作:

關於索引連接器

使用Index Connector定義用於索引XML頁面或任何類型的摘要的其他輸入源。

您可以使用資料摘要輸入來源來存取儲存在不同表單中的內容,該表單使用其中一個可用的編目方法,通常會在網站上探索到。 每個已編目和編列索引的檔案,都直接對應至您網站上的內容頁面。 但是,資料摘要可能來自XML檔案,也可能來自逗號分隔或定位點分隔的文字檔,且包含要索引的內容資訊。

XML資料源由XML標籤或記錄組成,這些標籤或記錄包含與單個文檔對應的資訊。 這些單個文檔將添加到索引中。 文字資料摘要包含個別新行分隔記錄,這些記錄會對應至個別檔案。 這些單個文檔也添加到索引中。 無論是哪種情況,索引連接器組態都會說明如何解譯摘要。 每個配置都描述檔案的駐留位置以及伺服器訪問該檔案的方式。 設定也說明「對應」資訊。 也就是說,每個記錄的項目如何用來填入產生索引中的中繼資料欄位。

將「索引連接器」定義添加到Staged Index Connector Definitions頁後,可以更改「名稱」或「類型」值的任何配置設定​,但​除外。

Index Connector頁面會顯示下列資訊:

  • 已配置和添加的已定義索引連接器的名稱。

  • 已新增每個連接器的下列資料來源類型之一:

    • 文字 — 簡單的「一般」檔案、逗號分隔、定位點分隔或其他一致分隔格式。
    • 摘要 - XML摘要。
    • XML - XML文檔的集合。
  • 是否啟用連接器進行下一個爬網和索引完成。

  • 資料源的地址。

另請參閱關於索引連接器

索引程式如何用於Index Connector中的文字和摘要組態

步驟

程序

說明

1

下載資料來源。

對於文字和摘要設定,這是簡單的檔案下載。

2

將下載的資料來源劃分為個別偽檔案。

對於文本,每行以新行分隔的文本都對應於單個文檔,並使用指定的分隔符(如逗號或制表符)進行分析。

對於摘要,每個檔案的資料會使用下列格式的規則運算式模式擷取:

<${Itemtag}>(.*?)</${Itemtag}>

使用 「Index Connector Add 」頁上的映射,建立資料的快取副本,然後為Crawler建立連結清單。 資料儲存在本機快取中,並填入已設定的欄位。

將解析的資料寫入本地快取。

此快取稍後將被讀取,以建立Crawler需要的簡單HTML文檔。 例如,

<html><head> <title>{title}</title> <meta name="{field}" content="{data}" /> ... </head><body> {body} </body></html>

<title> 元素只有在與「標題」元資料欄位有映射時才產生。 同樣地, <body> 元素只有在與Body元資料欄位有映射時才產生。

重要:不支援將值指派給預先定義的URL中繼標籤。

對於所有其他映射,將為在原始文檔中找到資料的每個欄位生成 <meta> 標籤。

每個檔案的欄位會新增至快取。 對於寫入快取的每個文檔,也生成一個連結,如以下示例所示:

<a href="index:Adobe?key=<primary key field>\" /> <a href="index:Adobe?key=<primary key field>\" /> ....

配置的映射必須有一個欄位標識為主鍵。 此對應會構成從快取擷取資料時所使用的金鑰。

Crawler可識別URL 索引:配置前置詞,可接著存取本機快取的資料。

3

對快取的文檔集進行爬網。

索引:連結將添加到爬網程式的待處理清單中,並以正常爬網順序進行處理。

4

處理每個文檔。

每個連結的索引鍵值對應於快取中的項目,因此對每個連結進行編目會導致從快取中擷取該檔案的資料。 然後,它會「組合」成HTML影像,並加以處理並新增至索引。

索引過程如何在Index Connector中處理XML配置

XML配置的索引過程與文本和摘要配置的過程類似,但有以下小的更改和例外。

由於XML編目的文檔已分為單個檔案,因此上表中的步驟1和2不直接應用。 如果您在Index Connector Add頁面的​Host Address​和​File Path​欄位中指定URL,則會將其下載並作為一般HTML檔案處理。 期望是下載文檔包含<a href="{url}"...連結的集合,每個連結指向處理的XML文檔。 此類連結會轉換為下列格式:

<a href="index:<ic_config_name>?url="{url}">

例如,如果Adobe設定傳回下列連結:

<a href="https://www.adobe.com/somepath/doc1.xml">doc 1</a> 
<a href="https://www.adobe.com/otherpath/doc2.xml">doc 2</a>

在上表中,步驟3不適用,且在編目和索引時已完成步驟4。

或者,您也可以將XML文檔與通過爬網過程自然發現的其他文檔混合。 在這種情況下,您可以使用重寫規則(Settings > Rewrite Rules > Crawl List Retrieve URL Rules)來更改XML文檔的URL,以將它們導向Index Connector。

請參閱關於爬網清單檢索URL規則

例如,假設您有下列重寫規則:

RewriteRule (^http.*[.]xml$) index:Adobe?key=$1

此規則將任何結尾為.xml的URL轉譯為「索引連接器」連結。 Crawler識別並重寫index: URL配置。 下載過程將通過主伺服器上的Index Connector Apache伺服器重定向。 每個下載的檔案都會使用與摘要搭配使用的相同規則運算式模式來檢查。 但是,在這種情況下,製造的HTML文檔不會保存在快取中。 而是直接交給爬蟲來處理索引。

如何配置多個索引連接器

您可以為任何帳戶定義多個索引連接器配置。 這些設定會自動新增至​Settings > Crawl > URL Entrypoints​中的下拉式清單,如下圖所示:

從下拉式清單中選取設定,會將值新增至URL登入點清單的結尾。

注意

禁用的「索引連接器」配置將添加到下拉清單中,但您無法選擇它們。 如果您再次選擇同一個Index Connector配置,該配置將添加到清單的末尾,並刪除前一個實例。

要指定增量爬網的「索引連接器」入口點,可以使用以下格式添加條目:

index:<indexconnector_configuration_name>

如果在「索引連接器」頁上找到並啟用了每個添加的條目,則Crawler將處理這些條目。

注意:由於每個文檔的URL都是使用索引連接器配置名稱和文檔的主鍵構建的,因此在執行增量更新時,請確保使用相同的索引連接器配置名稱! 這樣做允許Adobe Search&Promote正確更新先前已索引的文檔。

另請參閱關於URL入口點

添加索引連接器時使用「設定映射」

新增「索引連接器」時,您可以選擇使用功能​Setup Maps​來下載資料來源的範例。 檢查資料以確定索引適用性。

如果選擇「索引連接器」類型……

設定映射功能……

文字

先嘗試制表符,然後使用垂直條( | ),最後加上逗號()。 如果您在按一下「設定映射」之前已指定分隔字元值,則會改用該值。

最佳配適方案會在地圖欄位中填入適當標籤和欄位值的猜測。 此外,顯示所分析資料的採樣。 如果您知道檔案包含標題列,請務必選取第一列中的標題。 設定函式會使用此資訊來更好地識別產生的對應項目。

資訊源

下載資料源並執行簡單的XML解析。

生成的XPath標識符顯示在映射表的標籤行中,並且在欄位中顯示類似的值。 這些行僅標識可用資料,不會生成更複雜的XPath定義。 但是,它仍然很有幫助,因為它描述了XML資料並標識了Itemtag值。

注意: 「設定映射」函式將下載整個XML源以執行其分析。 如果檔案很大,則此操作可能會超時。

成功後,此函式將標識所有可能的XPath項,其中許多項不理想使用。 請務必檢查產生的地圖定義,並移除您不需要或想要的定義。

XML

下載代表個別檔案的URL,而非主要連結清單。 此單一檔案會使用與摘要搭配使用的相同機制進行剖析,並顯示結果。

在按一下添加以保存配置之前,請確保將URL更改回主連結清單文檔。

重要:「設定映射」功能可能不適用於大型XML資料集,因為其檔案解析器嘗試將整個檔案讀入記憶體。因此,您可能會遇到記憶體不足的情況。 但是,當在編製索引時處理同一文檔時,它不會讀入記憶體。 相反,大型文檔「在移動時」被處理,並且不會先完全讀入記憶體。

添加索引連接器時使用預覽

新增「索引連接器」時,您可以選擇使用功能​Preview​來驗證資料,就像儲存資料一樣。 它會針對設定執行測試,但不會將設定儲存至帳戶。 測試存取已設定的資料來源。 但是,它將下載快取寫入臨時位置;它與索引編目器使用的主快取資料夾不衝突。

預覽僅處理由Acct:IndexConnector-Preview-Max-Documents控制的五個文檔的預設值。 預覽的文檔以源格式顯示,如向索引編目程式顯示。 顯示與Web瀏覽器中的「檢視來源」功能類似。 可以使用標準導航連結導航預覽集中的文檔。

預覽不支援XML配置,因為此類文檔是直接處理的,不會下載到快取中。

添加索引連接器定義

每個「索引連接器」配置都定義一個資料源和映射,以將為該源定義的資料項與索引中的元資料欄位相關。

在客戶看到新定義和已啟用定義的效果之前,請重建網站索引。

添加索引連接器定義

  1. 在產品功能表中,按一下「Settings > Crawling > Index Connector」。

  2. 在Stage Index Connector Definitions頁面上,按一下​Add New Index Connector

  3. 在Index Connector Add頁面上,設定您想要的連接器選項。 可用的選項取決於您選取的​Type

    選項

    說明

    名稱

    索引連接器配置的唯一名稱。 您可以使用英數字元。 也允許使用字元「_」和「 — 」。

    類型

    資料的來源。 您選擇的資料源類型會影響生成的索引連接器添加頁上可用的選項。 您可以選擇下列項目:

    • 文字

      簡單的平面文本檔案、逗號分隔、制表符分隔或其他一致的分隔格式。 每行以新行分隔的文本都對應於單個文檔,並使用指定的分隔符進行分析。

      您可以從1(1)開始,將每個值或欄對應至由欄號參考的中繼資料欄位。

    • 資訊源

      下載包含多個「行」資訊的主XML文檔。

    • XML

      下載包含連結的主XML文檔( <a> )轉換為個別XML檔案。

    資料源類型:文字

    已啟用

    將配置「開啟」以進行編目和索引。 或者,您可以關閉設定,以防止編目和建立索引。

    注意:如果在入口點清單中找到索引連接器配置,則會忽略這些配置。

    主機地址

    指定資料所在的伺服器主機的地址。

    如果需要,可以指定資料源文檔的完整URI(統一資源標識符)路徑,如以下示例所示:

    https://www.somewhere.com/some_path/some_file.xml

    ftp://user:password@ftpserver.somewhere.com/some_path/some_file.xml

    URI被劃分為「主機地址」、「檔案路徑」、「協定」以及(可選)「用戶名」和「密碼」欄位的相應條目。

    指定找到資料源檔案的主機系統的IP地址或URL地址。

    檔案路徑

    指定簡單普通文本檔案、逗號分隔、制表符分隔或其他一致分隔格式檔案的路徑。

    路徑相對於主機地址的根。

    增量檔案路徑

    指定簡單普通文本檔案、逗號分隔、制表符分隔或其他一致分隔格式檔案的路徑。

    路徑相對於主機地址的根。

    如果指定,則在增量索引操作期間下載並處理此檔案。 如果未指定檔案,則會改用「檔案路徑」下列出的檔案。

    垂直檔案路徑

    指定在「垂直更新」期間使用的簡單普通文本檔案、逗號分隔、制表符分隔或其它一致分隔格式檔案的路徑。

    路徑相對於主機地址的根。

    如果指定,則在「垂直更新」操作期間下載並處理此檔案。

    注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    刪除檔案路徑

    指定簡單普通文本檔案的路徑,每行包含單個文檔標識符值。

    路徑相對於主機地址的根。

    如果指定,則在增量索引操作期間下載並處理此檔案。 此檔案中找到的值用於構造「刪除」請求,以刪除先前已索引的文檔。 此檔案中的值必須與「完整檔案路徑」或「增量檔案路徑」檔案中的值相對應,該檔案位於標識為主鍵的列中。

    注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    通訊協定

    指定用於訪問檔案的協定。 您可以選擇下列項目:

    • HTTP

      如有必要,您可以輸入正確的驗證憑據以訪問HTTP伺服器。

    • HTTPS

      如有必要,您可以輸入正確的驗證憑據以訪問HTTPS伺服器。

    • FTP

      您必須輸入正確的驗證憑證才能存取FTP伺服器。

    • SFTP

      您必須輸入正確的驗證憑證才能存取SFTP伺服器。

    • 檔案

    逾時

    指定FTP、SFTP、HTTP或HTTPS連線的逾時(秒)。 此值必須介於30和300之間。

    重試

    指定失敗FTP、SFTP、HTTP或HTTPS連線的重試次數上限。 此值必須介於0和10之間。

    值為零(0)將阻止重試嘗試。

    編碼

    指定指定的資料源檔案中使用的字元編碼系統。

    分隔字元

    指定您要用來勾勒指定資料來源檔案中每個欄位的字元。

    逗號字元()是分隔字元的範例。 逗號可做為欄位分隔字元,有助於分隔您指定之資料來源檔案中的資料欄位。

    選擇頁簽? 使用水準定位字元作為分隔符。

    第一列的標題

    指示資料源檔案中的第一行僅包含標題資訊,而不包含資料。

    用於編製索引的最小文檔數

    如果設為正值,則指定下載的檔案中預期的最小記錄數。 如果收到的記錄較少,則索引操作將被中止。

    注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    注意:此功能僅在完整索引操作期間使用。

    地圖

    使用列號指定列到元資料的映射。

    • 指定列號,第一列為1(1)。 若要為每個欄新增對應列,請在「動作」下方按一下「 + 」。

      您不需要參考資料來源中的每一欄。 反之,您可以選擇略過值。

    • 欄位

      定義用於每個生成的<meta>標籤的名稱屬性值。

    • 中繼資料?

      使欄位成為下拉清單,您可從中為當前帳戶選擇定義的元資料欄位。

      如果需要,欄位值可以是未定義的元資料欄位。 未定義的元資料欄位有時對建立篩選指令碼使用的內容很有幫助。

      請參閱關於篩選指令碼

      當Index Connector在任何映射欄位上處理具有多個點擊的XML文檔時,將多個值串連到生成的快取文檔中的單個值中。 依預設,這些值會使用逗號分隔字元結合。 但是,假設對應的欄位值是定義的中繼資料欄位。 此外,該欄位還設定了允許清單屬性。 在此情況下,在串連中使用欄位的「清單分隔符」值(定義的第一個分隔符)。

    • 主鍵?

      只有一個映射定義被標識為主鍵。 此欄位將成為將此文檔添加到索引時顯示的唯一引用。 此值用於索引中文檔的URL中。

      主鍵值在由Index Connector配置表示的所有文檔中都必須是唯一的 — 將忽略所遇到的任何重複項。 如果源文檔不包含用作主鍵的單個唯一值,但將組合在一起的兩個或多個欄位可以形成唯一標識符,則可以通過將多個值與限定值的垂直條("|")組合來定義主鍵

    • 脫HTML?

      核取此選項時,會移除在此欄位資料中找到的任何HTML標籤。

    • 動作

      可讓您將列新增至地圖,或從地圖中移除列。 列的順序並不重要。

    資料源類型:摘要

    已啟用

    將配置「開啟」以進行編目和索引。 或者,您可以關閉設定,以防止編目和建立索引。

    注意:如果在入口點清單中找到索引連接器配置,則會忽略這些配置。

    主機地址

    指定找到資料源檔案的主機系統的IP地址或URL地址。

    檔案路徑

    指定包含多個「行」資訊的主XML文檔的路徑。

    路徑相對於主機地址的根。

    增量檔案路徑

    指定包含多個「行」資訊的增量XML文檔的路徑。

    路徑相對於主機地址的根。

    如果指定,則在增量索引操作期間下載並處理此檔案。 如果未指定檔案,則會改用「檔案路徑」下列出的檔案。

    垂直檔案路徑

    指定XML文檔的路徑,該文檔包含多個要在垂直更新期間使用的稀疏「行」資訊。

    路徑相對於主機地址的根。

    如果指定,則在「垂直更新」操作期間下載並處理此檔案。

    注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    刪除檔案路徑

    指定簡單普通文本檔案的路徑,每行包含單個文檔標識符值。

    路徑相對於主機地址的根。

    如果指定,則在增量索引操作期間下載並處理此檔案。 此檔案中找到的值用於構造「刪除」請求,以刪除先前已索引的文檔。 此檔案中的值必須與「完整檔案路徑」或「增量檔案路徑」檔案中的值相對應,該檔案位於標識為主鍵的列中。

    注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    通訊協定

    指定用於訪問檔案的協定。 您可以選擇下列項目:

    • HTTP

      如有必要,您可以輸入正確的驗證憑據以訪問HTTP伺服器。

    • HTTPS

      如有必要,您可以輸入正確的驗證憑據以訪問HTTPS伺服器。

    • FTP

      您必須輸入正確的驗證憑證才能存取FTP伺服器。

    • SFTP

      您必須輸入正確的驗證憑證才能存取SFTP伺服器。

    • 檔案

    Itemtag

    標識可用於標識指定資料源檔案中各個XML行的XML元素。

    例如,在AdobeXML文檔的以下摘要片段中,Itemtag值為記錄:

    <?xml version="1.0" encoding="utf-8"?> <!DOCTYPE gsafeed PUBLIC "-//Google//DTD GSA Feeds//EN" ""> <gsafeed>      <header>           <datasource>marketplace</datasource>           <feedtype>incremental</feedtype>      </header>      <group action="add"> <record url=https://www.adobe.com/cfusion/marketplace_gsa index.cfm?event=marketplace.home&amp;marketplaceid=1 action="add" mimetype="text/html"displayurl="https://www.adobe.com/cfusion/marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=1"><metadata> <meta name="mp_mkt" content="1"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_air.png?lang=zh-Hant"/> <meta name="title" content="Adobe AIR Marketplace"/> <meta name="description" content="Discover new applications ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe AIR Marketplace</title></head><body>Discover new applications ...</body></html>]]></cntent> </record> <record url=https://www.adobe.com/cfusion/marketplace_gsa/ index.cfm?event=marketplace.home&amp;marketplaceid=2 action="add" mimetype="text/html" displayurl="https://www.adobe.com/cfusion/ marketplace/index.cfm?event=marketplace.home&amp;marketplaceid=2"> <metadata> <meta name="mp_mkt" content="2"/> <meta name="mp_logo" content="/images/marketplace/%20%20%20%20%20%20%20%20%20dbreferenced/marketplaceicons/icn_photoshop.png?lang=zh-Hant"/> <meta name="title" content="Adobe Photoshop Marketplace"/> <meta name="description" content="Extend your creative possibilities ..."/> </metadata> <content><![CDATA[<html><head><title>Adobe Photoshop Marketplace</title></head><body>Extend your creative possibilities ...</body></html>]]>/content> </record> ... <record> ... </record>      </group> </gsafeed>

    用於編製索引的最小文檔數

    如果設為正值,則指定下載的檔案中預期的最小記錄數。 如果收到的記錄較少,則索引操作將被中止。

    注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    注意:此功能僅在完整索引操作期間使用。

    地圖

    可讓您使用XPath運算式指定XML元素對中繼資料的對應。

    • 標記

      指定已解析XML資料的XPath表示。 使用上面的示例AdobeXML文檔,在選項Itemtag下,可以使用以下語法進行映射:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      上述語法轉譯為:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        顯示記錄元素的 屬性映射到元資料欄位 page-url

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        包含在元資料元素內的內容元素的屬性,該元資料元素包含在記錄元素內,其名稱屬性為標題,映射到元資料欄位標題

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        包含在記錄元素內的元資料元素中的內容屬性,其名稱屬性為說明,映射到元資料欄位 desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        包含在記錄元素內的元資料元素中的內容屬性(其名稱屬性為說明)映射到元資料欄位 body

      XPath是相對複雜的表示法。 如需詳細資訊,請前往下列位置:

      請參閱 https://www.w3schools.com/xpath/

    • 欄位

      定義用於每個生成的 <meta> 標籤的名稱屬性值。

    • 中繼資料?

      使欄位成為下拉清單,您可從中為當前帳戶選擇定義的元資料欄位。

      如果需要,欄位值可以是未定義的元資料欄位。 未定義的元資料欄位有時對建立篩選指令碼使用的內容很有幫助。

      請參閱關於篩選指令碼

      當Index Connector在任何映射欄位上處理具有多個點擊的XML文檔時,將多個值串連到生成的快取文檔中的單個值中。 依預設,這些值會使用逗號分隔字元結合。 但是,假設對應的欄位值是定義的中繼資料欄位。 此外,該欄位還設定了允許清單屬性。 在此情況下,在串連中使用欄位的「清單分隔符」值(定義的第一個分隔符)。

    • 主鍵?

      只有一個映射定義被標識為主鍵。 此欄位將成為將此文檔添加到索引時顯示的唯一引用。 此值用於索引中文檔的URL中。

      主鍵值在由Index Connector配置表示的所有文檔中都必須是唯一的 — 將忽略所遇到的任何重複項。 如果源文檔不包含用作主鍵的單個唯一值,但將兩個或多個欄位合併在一起可以形成唯一標識符,則可以通過組合多個標籤定義和限定值的垂直條("|")來定義主鍵

    • 脫HTML?

      核取此選項時,會移除在此欄位資料中找到的任何HTML標籤。

    • 用於刪除?

      僅在增量索引操作期間使用。 符合此XPath模式的記錄標識要刪除的項目。 每個此類記錄的主鍵值用於構造"delete"請求,如刪除檔案路徑。

      注意:此功能預設為未啟用。請連絡技術支援以啟用此功能以供您使用。

    • 動作

      可讓您將列新增至地圖,或從地圖中移除列。 列的順序並不重要。

    資料源類型:XML

    已啟用

    將配置「開啟」以進行編目和索引。 或者,您可以關閉設定,以防止編目和建立索引。

    注意:如果在入口點清單中找到索引連接器配置,則會忽略這些配置。

    主機地址

    指定找到資料源檔案的主機系統的URL地址。

    檔案路徑

    指定包含連結的主XML文檔的路徑( <a> )轉換為個別XML檔案。

    路徑相對於主機地址的根。

    通訊協定

    指定用於訪問檔案的協定。 您可以選擇下列項目:

    • HTTP

      如有必要,您可以輸入正確的驗證憑據以訪問HTTP伺服器。

    • HTTPS

      如有必要,您可以輸入正確的驗證憑據以訪問HTTPS伺服器。

    • FTP

      您必須輸入正確的驗證憑證才能存取FTP伺服器。

    • SFTP

      您必須輸入正確的驗證憑證才能存取SFTP伺服器。

    • 檔案

    注意:只有在「主機地址」和/或「檔案路徑」欄位中指定了資訊時,才使用「協定」設定。根據URL規範,個別XML檔案會使用HTTP或HTTPS下載。

    Itemtag

    標識在指定的資料源檔案中定義「行」的XML元素。

    地圖

    可讓您使用欄數指定欄對中繼資料的對應。

    • 標記

      指定已解析XML資料的XPath表示。 使用上面的示例AdobeXML文檔,在選項Itemtag下,可以使用以下語法映射它:

      /record/@displayurl -> page-url /record/metadata/meta[@name='title']/@content -> title /record/metadata/meta[@name='description']/@content -> desc /record/metadata/meta[@name='description']/@content -> body

      上述語法轉譯為:

      • /record/@displayurl&nbsp;->&nbsp;page-url

        顯示記錄元素的 屬性映射到元資料欄位 page-url

      • /record/metadata/meta[@name='title']/@content&nbsp;->&nbsp;title

        包含在元資料元素內的內容元素的屬性,該元資料元素包含在記錄元素內,其名稱屬性為標題,映射到元資料欄位標題

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;desc

        包含在記錄元素內的元資料元素中的內容屬性,其名稱屬性為說明,映射到元資料欄位 desc

      • /record/metadata/meta[@name='description']/@content&nbsp;->&nbsp;body

        包含在記錄元素內的元資料元素中的內容屬性(其名稱屬性為說明)映射到元資料欄位 body

      XPath是相對複雜的表示法。 如需詳細資訊,請前往下列位置:

      請參閱 https://www.w3schools.com/xpath/

    • 欄位

      定義用於每個生成的<meta>標籤的名稱屬性值。

    • 中繼資料?

      使欄位成為下拉清單,您可從中為當前帳戶選擇定義的元資料欄位。

      如果需要,欄位值可以是未定義的元資料欄位。 未定義的元資料欄位有時對建立篩選指令碼使用的內容很有幫助。

      請參閱關於篩選指令碼

      當Index Connector在任何映射欄位上處理具有多個點擊的XML文檔時,將多個值串連到生成的快取文檔中的單個值中。 依預設,這些值會使用逗號分隔字元結合。 但是,假設對應的欄位值是定義的中繼資料欄位。 此外,該欄位還設定了允許清單屬性。 在此情況下,在串連中使用欄位的「清單分隔符」值(定義的第一個分隔符)。

    • 主鍵?

      只有一個映射定義被標識為主鍵。 此欄位將成為將此文檔添加到索引時顯示的唯一引用。 此值用於索引中文檔的URL中。

      主鍵值在由Index Connector配置表示的所有文檔中都必須是唯一的 — 將忽略所遇到的任何重複項。 如果源文檔不包含用作主鍵的單個唯一值,但將兩個或多個欄位合併在一起可以形成唯一標識符,則可以通過組合多個標籤定義和限定值的垂直條("|")來定義主鍵

    • 脫HTML?

      核取此選項時,會移除在此欄位資料中找到的任何HTML標籤。

    • 動作

      可讓您將列新增至地圖,或從地圖中移除列。 列的順序並不重要。

  4. (可選)按一下​Setup Maps​下載資料來源的範例。 檢查資料以確定索引適用性。 此功能僅適用於文字和摘要類型。

  5. (可選)按一下​Preview​以測試配置的實際工作。 此功能僅適用於文字和摘要類型。

  6. 按一下​Add​將配置添加到Index Connector Definitions頁和URL Entrypoints頁上的Index Connector Configurations下拉清單中。

    請參閱關於URL入口點

  7. 在Index Connector Definitions頁面上,按一下​rebuild your staged site index

  8. (選用)在Index Connector Definitions頁面上,執行下列任一操作:

編輯索引連接器定義

您可以編輯已定義的現有「索引連接器」。

注意

並非所有選項都可供您更改,例如Type下拉清單中的「索引連接器名稱」或「類型」。

要編輯索引連接器定義

  1. 在產品功能表中,按一下「Settings > Crawling > Index Connector」。

  2. 在Index Connector頁的Actions列標題下,按一下​Edit​獲取要更改其設定的索引連接器定義名稱。

  3. 在Index Connector Edit頁面上,設定您想要的選項。

    請參閱添加索引連接器定義下的選項表。

  4. 按一下 Save Changes.

  5. (可選)在Index Connector Definitions頁面上,按一下​rebuild your staged site index

  6. (選用)在Index Connector Definitions頁面上,執行下列任一操作:

查看「索引連接器」定義的設定

您可以查看現有索引連接器定義的配置設定。

將「索引連接器」定義添加到Index Connector Definitions頁後,無法更改其「類型」設定。 請改為刪除定義,然後新增定義。

查看「索引連接器」定義的設定

  1. 在產品功能表中,按一下「Settings > Crawling > Index Connector」。
  2. 在Index Connector頁的Actions列標題下,按一下​Edit​獲取要查看或編輯其設定的Index Connector定義名稱。

複製索引連接器定義

您可以複製現有的「索引連接器」定義,以用作要建立的新「索引連接器」的基礎。

複製Index Connector定義時,預設情況下會停用複製的定義。 若要啟用或「開啟」定義,必須從Index Connector Edit頁面編輯該定義,然後選取​Enable

請參閱編輯索引連接器定義

複製索引連接器定義

  1. 在產品功能表中,按一下「Settings > Crawling > Index Connector」。

  2. 在Index Connector頁的Actions列標題下,按一下​Copy​獲取要複製其設定的Index Connector定義名稱。

  3. 在Index Connector Copy頁面上,輸入定義的新名稱。

  4. 按一下 Copy.

  5. (選用)在Index Connector Definitions頁面上,執行下列任一操作:

更名索引連接器定義

可以更改現有「索引連接器」定義的名稱。

重新命名定義後,請檢查​Settings > Crawling > URL Entrypoints。 要確保新定義名稱反映在URL Entrypoints頁面的下拉式清單中。

請參閱新增多個要建立索引的URL入口點

更名「索引連接器」定義

  1. 在產品功能表中,按一下「Settings > Crawling > Index Connector」。

  2. 在Index Connector頁的Actions列標題下,按一下​Rename​以獲取要更改的「索引連接器」定義名稱。

  3. 在Index Connector Rename頁面的Name欄位中輸入定義的新名稱。

  4. 按一下 Rename.

  5. 按一下「Settings > Crawling > URL Entrypoints」。 如果清單中存在以前的Index Connector名稱,請將其刪除,然後添加新更名的條目。

    請參閱新增多個要建立索引的URL入口點。 1.(選用)在Index Connector Definitions頁面上,執行下列任一操作:

刪除索引連接器定義

您可以刪除不再需要或使用的現有「索引連接器」定義。

刪除索引連接器定義

  1. 在產品功能表中,按一下「Settings > Crawling > Index Connector」。
  2. 在Index Connector Definitions頁的Actions列標題下,按一下​Delete​以獲取要刪除的Index Connector定義名稱。
  3. 在Index Connector Delete頁面上,按一下​Delete

本頁內容