Tika-configuratie werkt niet in AEMaaCS-Assets
In AEMaaCS Assets worden aangepaste Tika-configuraties, zoals het uitsluiten van PDF's, genegeerd in de cloud-omgeving, die standaard de instellingen voor 'out-of-box' (OTB) gebruikt. Als u dit probleem wilt verhelpen, verwijdert u de component "aggregate" uit de index damAssetLucene of verwijdert u het knooppunt /jcr:content/renditions/cqdam.text.txt na de verwerking.
Beschrijving description
Omgeving
- Product: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
- Instantie: Ontwikkeling
Probleem/symptomen
- Een aangepaste Lucene-index bevat specifieke eigenschappen en een aangepaste Apache Tika-configuratie.
- In de Tika-configuratie worden bepaalde elementtypen (bijvoorbeeld PDF's) niet geïndexeerd en doorzocht.
- De installatie werkt correct in de lokale omgeving.
- De wolkenomgeving negeert de aangepaste Tika-configuratie.
- Het systeem is standaard ingesteld op instellingen van de externe Tika (OOTB).
- De berichten van het logboek bevestigen dat de standaardconfiguratie van de Tika in plaats van douane wordt geladen.
Resolutie resolution
Ga als volgt te werk om dit probleem op te lossen:
-
De DAM-indexdefinitie wijzigen
- Open de definitie van damAssetLucene-index. Voor meer informatie, verwijs naar de documentatie van AEM over inhoudsonderzoek en het indexeren .
- Verwijder de gezamenlijke clausule die het pad van de tekstvertoning (
/jcr:content/renditions/cqdam.text.txt) richt om gehaalde tekst van full-text onderzoek uit te sluiten.
-
Een naverwerkingsworkflow implementeren
-
Maak een aangepaste AEM-workflow die wordt uitgevoerd nadat de Asset Compute Service is voltooid.
-
In de workflow:
- Voeg een stap toe om het knooppunt
/jcr:content/renditions/cqdam.text.txtte verwijderen. - U kunt het knooppunt ook vervangen door een leeg bestand om te voorkomen dat het wordt geïndexeerd.
- Voeg een stap toe om het knooppunt
-
Implementeer de workflow met Cloud Manager en test deze om te controleren of de indexering van ongewenste tekst is onderdrukt.
-
Opmerkingen:
- In lokale/AEM SDK bepaalt de Tika-configuratie rechtstreeks hoe binaire inhoud (bijvoorbeeld PDF's, PNG's, MP4s) wordt geïndexeerd. Indexering vindt plaats binnen dezelfde runtime met behulp van de gedefinieerde Tika-configuraties.
- In AEM as a Cloud Service verwerkt de Asset Compute Service tekst- en metagegevensextractie uit binaire bestanden. Deze geëxtraheerde gegevens worden vervolgens aan de DAM-index verstrekt. De OSGi-configuratie van Tika heeft geen invloed op dit proces.
- U kunt extractie met volledige tekst voor binaire bestanden in de cloud niet overschrijven of aanpassen met lokale Tika-configuraties. De instellingen van Tika zijn alleen van invloed op lokale uitvoeringen in AEM SDK en sommige verouderde on-prem-instellingen.
Leeslezingen
die het naverwerken Werkschema in de Zelfstudies van AEM Assets aanpassen.