Indexering

Adobe Experience Manager erbjuder ett sätt att hålla ett index över alla publicerade sidor i ett visst avsnitt på webbplatsen. Detta används ofta för att skapa listor, feeds och aktivera sök- och filtreringsanvändning för dina sidor eller innehållsfragment.

AEM sparar indexet i ett kalkylblad och ger åtkomst till det med JSON. Se dokumentet Kalkylblad och JSON för mer information.

Konfigurera ett startfrågeindex

I det här avsnittet skapar vi ett frågeindex i rotmappen som indexerar alla dokument i serverdelen.

  1. När du har konfigurerat fstab.yaml med en monteringspunkt som pekar på din SharePoint-webbplats eller Google Drive går du till rotmappen.
  2. Beroende på din serverdel kan du antingen skapa en arbetsbok med namnet query-index.xlsx för SharePoint eller ett kalkylblad med namnet query-index för Google Drive.
  3. Skapa ett blad med namnet i kalkylbladet eller arbetsboken raw_index.

Ange egenskaper som ska läggas till i indexet

  1. I query-index dokument, lägga till en rubrikrad och i den första kolumnen lägga till path som rubriknamn.
  2. I följande kolumner på rubrikraden lägger du till alla andra egenskaper som du behöver extraherade från HTML-sidan.

I följande exempel i Google Drive är de extraherade fälten title, image, descriptionoch lastModified.

Sidorna indexeras när de publiceras. Om du vill ta bort sidor från indexet måste de avpubliceras.

För enkla scenarier utan anpassad indexdefinition, sidor som har robots metadataegenskap inställd på noindex utelämnas automatiskt från indexering av AEM. (Det finns några specialscenarier här. Mer information finns i avsnittet Specialscenarier för robotar).

I följande tabell sammanfattas de tillgängliga egenskaperna och varifrån på HTML-sidan de extraheras.

Namn
Beskrivning
author
Returnerar innehållet i meta-taggen med namnet author i head -element.
title
Returnerar innehållet i og:title meta-egenskapen i head -element.
date
Returnerar innehållet i meta-taggen med namnet publication-date i head -element.
image
Returnerar innehållet i og:image meta-egenskapen i head -element.
category
Returnerar innehållet i meta-taggen med namnet category i head -element.
tags

Returnerar innehållet i meta-taggen med namnet article:tag i head -element som en array.

Se dokumentet Kalkylblad och JSON för mer information om arrayhantering.

description
Returnerar innehållet i meta-taggen med namnet description i head -element.
robots
Returnerar innehållet i meta-taggen med namnet robots i head -element.
lastModified
Returnerar värdet för Last-Modified svarshuvud för dokumentet.

För varje annan rubrik som läggs till försöker indexeraren hitta en metatagg med motsvarande namn.

Aktivera index

Om du vill aktivera indexet förhandsgranskar du kalkylbladet med hjälp av sidosparken. Detta skapar en indexkonfiguration.

Kontrollerar ditt index

Administrationstjänsten har en API-slutpunkt där du kan kontrollera sidans indexrepresentation. Med tanke på din GitHub-ägare, databas, gren och ägare och en resurssökväg till en sida är slutpunkten:

https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>

Du bör få ett JSON-svar där datanoden innehåller sidans indexbeteckning.

Felsöka indexkonfigurationen

I AEM CLI finns en funktion där indexposten skrivs ut när du ändrar frågekonfigurationen, vilket hjälper dig att hitta rätt CSS-väljare:

$ aem up --print-index

Se AEM CLI GitHub-dokumentation för mer information och se detta video om du vill veta mer om funktionen.

Konfigurera fler indexkonfigurationer

Du kan definiera egna indexkonfigurationer genom att skapa egna helix-query.yaml. Detta gör att du kan ha mer än en indexkonfiguration i samma helix-query.yaml, där delar av dina webbplatser indexeras till olika Excel-arbetsböcker eller Google-kalkylblad. Se dokumentet Indexeringsreferens för mer information.

Specialscenarier för robotar

Det finns några nyanser om hur sidor indexeras av AEM i samband med indexeringen av webbplatsen. Låt oss titta på dem:

I följande två situationer: ange robots till noindex på sidan skulle metadata not förhindra att den indexeras av AEM:

  • Du har lagt till en robots kolumn i query-index.xlsx
  • Du har en helix-query.yaml i din Github-databas, d.v.s. du har definierat en egen indexdefinition.

Recommendations

  1. Om du inte har någon anpassad indexdefinition rekommenderas att not lägg till en robots kolumn till indexbladet såvida du inte har ett krav på att göra det.
    Lägger till robots en kolumn i indexbladet skulle göra att en sida indexeras av AEM trots att den kan ha robots metadata inställda på noindex.
  2. Om du har en anpassad indexdefinition, kommer sidor att indexeras av AEM oavsett inställning robots till noindex på sidans metadata. Om du vill förhindra att detta händer kan du använda kalkylbladsfilter för att utesluta sidor från index som har robots metadata inställda på noindex. Mer information finns i avsnittet "Tvingande noindex konfiguration med anpassade indexdefinitioner" nedan.

Tillämpar "noindex"-konfiguration med anpassade indexdefinitioner

Om du har definierat egna indexdefinitioner i helix-query.yaml, ställer in robots egenskap till noindex förhindrar inte att sidorna indexeras. För att verkställa noindex så här är konfigurationen:

  1. Skapa ett blad med namnet "helix-default" i query-index.xlsx . Efter det här query-index.xlsx kalkylblad bör innehålla 2 blad “raw_index" och “helix-default". The “raw_index"bladet finns där för att få alla obearbetade indexerade data.
  2. Ändra din egen helix-query.yaml (måste finnas i ditt projekts Github-databas) och lägg till robots så att den indexeras.
  3. Nu kan du “helix-default" i query-index.xlsx kalkylblad som fylls i automatiskt med Excel-formeln som ser till att alla rader i raw_index som har robots egenskapsuppsättning som noindex, kopieras inte till helix-default blad. Detta kan du göra genom att använda en Excel-formel som den här =FILTER(Table1,NOT(Table1[robots]="noindex"))
  4. Nu har Helix-standardbladet bara rader från raw_index som inte har robots egenskap inställd på noindex.
  5. Kontrollera att du publicerar sidorna som du vill indexera.
  6. Om du hämtar indexet som vanligt, som: https://<branch>--<repo>-<org>.hlx.page/query-index.jsonhämtar ni bara data från helix-default d.v.s. poster som inte uttryckligen hindras från att indexeras via robot egenskapsuppsättning som noindex.
recommendation-more-help
10a6ce9d-c5c5-48d9-8ce1-9797d2f0f3ec