Indexeren

Last update: Thu May 16 2024 00:00:00 GMT+0000 (Coordinated Universal Time)

Onderwerpen:
Edge Delivery Services

Adobe Experience Manager biedt een manier om een index van alle gepubliceerde pagina's in een bepaald gedeelte van uw website te houden. Dit wordt meestal gebruikt om lijsten, feeds te maken en om zoek- en filtergebruiksgevallen voor uw pagina's of inhoudsfragmenten in te schakelen.

AEM houdt deze index in een spreadsheet en biedt er toegang tot via JSON. Zie het document Spreadsheets en JSON voor meer informatie .

Een initiële query-index instellen

In deze sectie maken we een query-index in de hoofdmap die alle documenten op de achtergrond indexeert.

Nadat u uw fstab.yaml met een installatiepunt die naar uw SharePoint-site of Google Drive wijst, gaat u naar de hoofdmap.
Afhankelijk van uw backend, creeer of een genoemd werkboek query-index.xlsx voor SharePoint of een spreadsheet met de naam query-index voor Google Drive.
In dat spreadsheet of werkboek, creeer een blad genoemd raw_index.

Eigenschappen instellen die aan de index moeten worden toegevoegd

In uw query-index document, voeg een koptekstregel toe en in de eerste kolom voeg toe path als de koptekstnaam.
Voeg in de volgende kolommen van de koptekstregel alle andere eigenschappen toe die u uit de gerenderde HTML-pagina wilt halen.

In het volgende voorbeeld in Google Drive zijn de geëxtraheerde velden title, image, description, en lastModified.

Pagina's worden geïndexeerd wanneer ze worden gepubliceerd. Als u pagina's uit de index wilt verwijderen, moeten deze niet worden gepubliceerd.

Voor eenvoudige scenario's zonder aangepaste indexdefinitie, pagina's die robots eigenschap metadata ingesteld op noindex wordt automatisch weggelaten uit indexering door AEM. (Hier zijn een paar speciale scenario's, voor meer details zie de sectie Speciale scenario's voor robots).

In de volgende tabel wordt een overzicht gegeven van de eigenschappen die beschikbaar zijn en van de plaatsen op de pagina HTML waar deze worden geëxtraheerd.

Naam

Beschrijving

author

Retourneert de inhoud van de meta-tag genaamd author in de head element.

title

Retourneert de inhoud van het dialoogvenster og:title de eigenschap meta in het dialoogvenster head element.

date

Retourneert de inhoud van de meta-tag genaamd publication-date in de head element.

image

Retourneert de inhoud van het dialoogvenster og:image de eigenschap meta in het dialoogvenster head element.

category

Retourneert de inhoud van de meta-tag genaamd category in de head element.

tags

Retourneert de inhoud van de meta-tag genaamd article:tag in de head element als een array.

Zie het document Spreadsheets en JSON voor meer informatie over array-afhandeling.

description

Retourneert de inhoud van de meta-tag genaamd description in de head element.

robots

Retourneert de inhoud van de meta-tag genaamd robots in de head element.

lastModified

Retourneert de waarde van de Last-Modified antwoordkop voor het document.

Voor elke andere toegevoegde koptekst probeert de indexer een metatag met een overeenkomstige naam te vinden.

Uw index activeren

Als u de index wilt activeren, geeft u een voorvertoning van de spreadsheet weer met de sidekick. Hiermee wordt een indexconfiguratie gemaakt.

Je index controleren

De Admin Dienst heeft een API eindpunt waar u de indexvertegenwoordiging van uw pagina kunt controleren. Gezien uw eigenaar GitHub, bewaarplaats, tak en eigenaar, en een middelweg aan een pagina, is zijn eindpunt:

https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>

U moet een JSON-reactie krijgen waarin het gegevensknooppunt de indexweergave van de pagina bevat.

Fouten opsporen in uw indexconfiguratie

AEM CLI heeft een eigenschap waar het de indexverslag zal drukken wanneer u uw vraagconfiguratie verandert, die bij het vinden van de correcte CSS selecteurs bijstaat:

$ aem up --print-index

Zie de AEM CLI GitHub-documentatie voor meer informatie en bekijk dit video voor meer informatie over deze functie.

Meer indexconfiguraties instellen

U kunt uw eigen aangepaste indexconfiguraties definiëren door uw eigen configuraties te maken helix-query.yaml. Hierdoor kunt u meer dan één indexconfiguratie in dezelfde configuratie gebruiken helix-query.yaml, waarbij delen van uw sites worden geïndexeerd in verschillende Excel-werkboeken of Google-werkbladen. Zie het document Indexeringsverwijzing voor meer informatie .

Speciale scenario's voor robots

Er zijn een paar nuances over hoe de pagina's door AEM samen met het indexeren opstelling voor uw plaats worden geïndexeerd. Laten we ze eens bekijken:

In de volgende twee situaties kunt u instellen robots tot noindex op de pagina zouden de metagegevens niet voorkomen dat het wordt geïndexeerd door AEM:

U hebt een robots kolom in query-index.xlsx
U hebt een helix-query.yaml in uw gegevensopslagruimte van Github, d.w.z. u hebt een aangepaste indexdefinitie.

Recommendations

Als u geen aangepaste indexdefinitie hebt wordt aanbevolen niet toevoegen robots aan uw indexblad tenzij u een vereiste daartoe hebt.
Toevoegen robots de kolom aan uw indexblad zou een pagina veroorzaken om door AEM worden geïndexeerd hoewel het kan hebben robots metagegevens ingesteld op noindex.
Als u een aangepaste indexdefinitie hebt pagina's worden door AEM geïndexeerd, ongeacht de instelling robots tot noindex op de pagina-metagegevens. Als u dit wilt voorkomen, kunt u spreadsheetfilters gebruiken om pagina's weg te laten uit index die robots metagegevens ingesteld op noindex. Zie de sectie met de titel "Uitvoering noindex configuratie met aangepaste indexdefinities" hieronder.

'noindex'-configuratie afdwingen met aangepaste indexdefinities

Als u uw eigen aangepaste indexdefinities hebt gedefinieerd in helix-query.yaml, de instelling robots eigenschap aan noindex voorkomt niet dat de pagina's worden geïndexeerd. Met het oog op de handhaving noindex In dergelijke situaties kunt u het volgende doen:

Een werkblad maken met de naam "helix-default" in uw query-index.xlsx . Hierna kunt u query-index.xlsx spreadsheet moet 2 vellen hebben “raw_index" en “helix-default". De “raw_index" sheet is er om alle ruwe geïndexeerde gegevens te hebben.
Aangepaste wijzigingen wijzigen helix-query.yaml (moet in de Github-opslagplaats van uw project staan) en voeg de robots eigenschap, zodat deze wordt geïndexeerd.
Stel nu uw “helix-default" in het query-index.xlsx spreadsheet die automatisch wordt gevuld gebruikend de formule van Excel die ervoor zorgt dat alle rijen in raw_index die robots eigenschap ingesteld als noindex, niet naar de helix-default blad. Dit kan door een formule van Excel als dit te gebruiken worden gedaan =FILTER(Table1,NOT(Table1[robots]="noindex"))
Nu heeft uw standaard-hulpblad alleen de rijen van raw_index die niet robots eigenschap ingesteld op noindex.
Zorg ervoor dat u de pagina's publiceert die u wilt worden geïndexeerd.
Nu als u de index zoals gebruikelijk haalt: https://<branch>--<repo>-<org>.hlx.page/query-index.jsonkrijgt u alleen gegevens van helix-default bladen, d.w.z. vermeldingen die niet expliciet voorkomen te worden geïndexeerd via de robot eigenschap ingesteld als noindex.

recommendation-more-help

10a6ce9d-c5c5-48d9-8ce1-9797d2f0f3ec