Tika-configuratie werkt niet in AEMaaCS-Assets

In AEMaaCS Assets worden aangepaste Tika-configuraties, zoals het uitsluiten van PDF's, genegeerd in de cloud-omgeving, die standaard de instellingen voor 'out-of-box' (OTB) gebruikt. Als u dit probleem wilt verhelpen, verwijdert u de component "aggregate" uit de index damAssetLucene of verwijdert u het knooppunt /jcr:content/renditions/cqdam.text.txt na de verwerking.

Beschrijving description

Omgeving

  • Product: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • Instantie: Ontwikkeling

Probleem/symptomen

  • Een aangepaste Lucene-index bevat specifieke eigenschappen en een aangepaste Apache Tika-configuratie.
  • In de Tika-configuratie worden bepaalde elementtypen (bijvoorbeeld PDF's) niet geïndexeerd en doorzocht.
  • De installatie werkt correct in de lokale omgeving.
  • De wolkenomgeving negeert de aangepaste Tika-configuratie.
  • Het systeem is standaard ingesteld op instellingen van de externe Tika (OOTB).
  • De berichten van het logboek bevestigen dat de standaardconfiguratie van de Tika in plaats van douane wordt geladen.

Resolutie resolution

Ga als volgt te werk om dit probleem op te lossen:

  • De DAM-indexdefinitie wijzigen

    1. Open de definitie van damAssetLucene-index. Voor meer informatie, verwijs naar de ​ documentatie van AEM over inhoudsonderzoek en het indexeren ​.
    2. Verwijder de gezamenlijke clausule die het pad van de tekstvertoning (/jcr:content/renditions/cqdam.text.txt) richt om gehaalde tekst van full-text onderzoek uit te sluiten.
  • Een naverwerkingsworkflow implementeren

    1. Maak een aangepaste AEM-workflow die wordt uitgevoerd nadat de Asset Compute Service is voltooid.

    2. In de workflow:

      • Voeg een stap toe om het knooppunt /jcr:content/renditions/cqdam.text.txt te verwijderen.
      • U kunt het knooppunt ook vervangen door een leeg bestand om te voorkomen dat het wordt geïndexeerd.
    3. Implementeer de workflow met Cloud Manager en test deze om te controleren of de indexering van ongewenste tekst is onderdrukt.

Opmerkingen:

  • In lokale/AEM SDK bepaalt de Tika-configuratie rechtstreeks hoe binaire inhoud (bijvoorbeeld PDF's, PNG's, MP4s) wordt geïndexeerd. Indexering vindt plaats binnen dezelfde runtime met behulp van de gedefinieerde Tika-configuraties.
  • In AEM as a Cloud Service verwerkt de Asset Compute Service tekst- en metagegevensextractie uit binaire bestanden. Deze geëxtraheerde gegevens worden vervolgens aan de DAM-index verstrekt. De OSGi-configuratie van Tika heeft geen invloed op dit proces.
  • U kunt extractie met volledige tekst voor binaire bestanden in de cloud niet overschrijven of aanpassen met lokale Tika-configuraties. De instellingen van Tika zijn alleen van invloed op lokale uitvoeringen in AEM SDK en sommige verouderde on-prem-instellingen.

Leeslezingen

​ die het naverwerken Werkschema ​ in de Zelfstudies van AEM Assets aanpassen.

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f