Indexeren
Adobe Experience Manager biedt een manier om een index van alle gepubliceerde pagina's in een bepaald gedeelte van uw website te houden. Dit wordt meestal gebruikt om lijsten, feeds te maken en om zoek- en filtergebruiksgevallen voor uw pagina's of inhoudsfragmenten in te schakelen.
AEM houdt deze index in een spreadsheet en biedt er toegang tot via JSON. Zie het document Spreadsheets en JSON voor meer informatie .
Een initiële query-index instellen
In deze sectie maken we een query-index in de hoofdmap die alle documenten op de achtergrond indexeert.
- Nadat u uw
fstab.yaml
met een installatiepunt die naar uw SharePoint-site of Google Drive wijst, gaat u naar de hoofdmap. - Afhankelijk van uw backend, creeer of een genoemd werkboek
query-index.xlsx
voor SharePoint of een spreadsheet met de naamquery-index
voor Google Drive. - In dat spreadsheet of werkboek, creeer een blad genoemd
raw_index
.
Eigenschappen instellen die aan de index moeten worden toegevoegd
- In uw
query-index
document, voeg een koptekstregel toe en in de eerste kolom voeg toepath
als de koptekstnaam. - Voeg in de volgende kolommen van de koptekstregel alle andere eigenschappen toe die u uit de gerenderde HTML-pagina wilt halen.
In het volgende voorbeeld in Google Drive zijn de geëxtraheerde velden title
, image
, description
, en lastModified
.
Pagina's worden geïndexeerd wanneer ze worden gepubliceerd. Als u pagina's uit de index wilt verwijderen, moeten deze niet worden gepubliceerd.
Voor eenvoudige scenario's zonder aangepaste indexdefinitie, pagina's die robots
eigenschap metadata ingesteld op noindex
wordt automatisch weggelaten uit indexering door AEM. (Hier zijn een paar speciale scenario's, voor meer details zie de sectie Speciale scenario's voor robots).
In de volgende tabel wordt een overzicht gegeven van de eigenschappen die beschikbaar zijn en van de plaatsen op de pagina HTML waar deze worden geëxtraheerd.
Voor elke andere toegevoegde koptekst probeert de indexer een metatag met een overeenkomstige naam te vinden.
Uw index activeren
Als u de index wilt activeren, geeft u een voorvertoning van de spreadsheet weer met de sidekick. Hiermee wordt een indexconfiguratie gemaakt.
Je index controleren
De Admin Dienst heeft een API eindpunt waar u de indexvertegenwoordiging van uw pagina kunt controleren. Gezien uw eigenaar GitHub, bewaarplaats, tak en eigenaar, en een middelweg aan een pagina, is zijn eindpunt:
https://admin.hlx.page/index/<owner>/<repo>/<branch>/<path>
U moet een JSON-reactie krijgen waarin het gegevensknooppunt de indexweergave van de pagina bevat.
Fouten opsporen in uw indexconfiguratie
AEM CLI heeft een eigenschap waar het de indexverslag zal drukken wanneer u uw vraagconfiguratie verandert, die bij het vinden van de correcte CSS selecteurs bijstaat:
$ aem up --print-index
Zie de AEM CLI GitHub-documentatie voor meer informatie en bekijk dit video voor meer informatie over deze functie.
Meer indexconfiguraties instellen
U kunt uw eigen aangepaste indexconfiguraties definiëren door uw eigen configuraties te maken helix-query.yaml.
Hierdoor kunt u meer dan één indexconfiguratie in dezelfde configuratie gebruiken helix-query.yaml
, waarbij delen van uw sites worden geïndexeerd in verschillende Excel-werkboeken of Google-werkbladen. Zie het document Indexeringsverwijzing voor meer informatie .
Speciale scenario's voor robots
Er zijn een paar nuances over hoe de pagina's door AEM samen met het indexeren opstelling voor uw plaats worden geïndexeerd. Laten we ze eens bekijken:
In de volgende twee situaties kunt u instellen robots
tot noindex
op de pagina zouden de metagegevens niet voorkomen dat het wordt geïndexeerd door AEM:
- U hebt een
robots
kolom inquery-index.xlsx
- U hebt een
helix-query.yaml
in uw gegevensopslagruimte van Github, d.w.z. u hebt een aangepaste indexdefinitie.
Recommendations
- Als u geen aangepaste indexdefinitie hebt wordt aanbevolen niet toevoegen
robots
aan uw indexblad tenzij u een vereiste daartoe hebt.
Toevoegenrobots
de kolom aan uw indexblad zou een pagina veroorzaken om door AEM worden geïndexeerd hoewel het kan hebbenrobots
metagegevens ingesteld opnoindex.
- Als u een aangepaste indexdefinitie hebt pagina's worden door AEM geïndexeerd, ongeacht de instelling
robots
totnoindex
op de pagina-metagegevens. Als u dit wilt voorkomen, kunt u spreadsheetfilters gebruiken om pagina's weg te laten uit index dierobots
metagegevens ingesteld opnoindex
. Zie de sectie met de titel "Uitvoeringnoindex
configuratie met aangepaste indexdefinities" hieronder.
'noindex'-configuratie afdwingen met aangepaste indexdefinities
Als u uw eigen aangepaste indexdefinities hebt gedefinieerd in helix-query.yaml
, de instelling robots
eigenschap aan noindex
voorkomt niet dat de pagina's worden geïndexeerd. Met het oog op de handhaving noindex
In dergelijke situaties kunt u het volgende doen:
- Een werkblad maken met de naam "
helix-default
" in uwquery-index.xlsx
. Hierna kunt uquery-index.xlsx
spreadsheet moet 2 vellen hebben“raw_index
" en“helix-default
". De“raw_index
" sheet is er om alle ruwe geïndexeerde gegevens te hebben. - Aangepaste wijzigingen wijzigen
helix-query.yaml
(moet in de Github-opslagplaats van uw project staan) en voeg derobots
eigenschap, zodat deze wordt geïndexeerd. - Stel nu uw
“helix-default
" in hetquery-index.xlsx
spreadsheet die automatisch wordt gevuld gebruikend de formule van Excel die ervoor zorgt dat alle rijen inraw_index
dierobots
eigenschap ingesteld alsnoindex
, niet naar dehelix-default
blad. Dit kan door een formule van Excel als dit te gebruiken worden gedaan=FILTER(Table1,NOT(Table1[robots]="noindex"))
- Nu heeft uw standaard-hulpblad alleen de rijen van
raw_index
die nietrobots
eigenschap ingesteld opnoindex
. - Zorg ervoor dat u de pagina's publiceert die u wilt worden geïndexeerd.
- Nu als u de index zoals gebruikelijk haalt:
https://<branch>--<repo>-<org>.hlx.page/query-index.json
krijgt u alleen gegevens vanhelix-default
bladen, d.w.z. vermeldingen die niet expliciet voorkomen te worden geïndexeerd via derobot
eigenschap ingesteld alsnoindex
.