A configuração do Tika não está funcionando no AEMaaCS-Assets

No AEMaaCS Assets, as configurações personalizadas de Tika, como a exclusão de PDFs, são ignoradas no ambiente de nuvem, que assume o padrão de configurações prontas para uso (OOTB). Para corrigir esse problema, remova a cláusula "aggregate" do índice damAssetLucene ou exclua o nó /jcr:content/renditions/cqdam.text.txt após o processamento.

Descrição description

Ambiente

  • Produto: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
  • Instância: Desenvolvimento

Problema/Sintomas

  • Um índice Lucene personalizado inclui propriedades específicas e uma configuração personalizada do Apache Tika.
  • A configuração do Tika exclui determinados tipos de ativos (por exemplo, PDFs) da indexação e pesquisa.
  • A configuração funciona corretamente no ambiente local.
  • O ambiente de nuvem ignora a configuração personalizada do Tika.
  • O sistema assume o padrão de configurações Tika prontas para uso (OOTB).
  • Mensagens de registro confirmam que a configuração padrão do Tika está sendo carregada em vez da personalizada.

Resolução resolution

Para corrigir esse problema, siga estas etapas:

  • Modificar a definição do índice DAM

    1. Abra a definição do índice damAssetLucene. Para obter mais informações, consulte a documentação do AEM sobre pesquisa e indexação de conteúdo.
    2. Remova a cláusula de agregação direcionada ao caminho de representação de texto (/jcr:content/renditions/cqdam.text.txt) para excluir o texto extraído da pesquisa de texto completo.
  • Implementar um workflow de pós-processamento

    1. Crie um fluxo de trabalho personalizado do AEM que seja executado depois que o serviço do Asset Compute concluir o processamento.

    2. No fluxo de trabalho:

      • Adicione uma etapa para excluir o nó /jcr:content/renditions/cqdam.text.txt.
      • Como alternativa, substitua o nó por um arquivo vazio para impedir que ele seja indexado.
    3. Implante o workflow usando o Cloud Manager e teste-o para confirmar se a indexação de texto indesejada está suprimida.

Notas:

  • No SDK local/AEM, a configuração do Tika influencia diretamente a forma como o conteúdo binário (por exemplo, PDFs, PNGs, MP4s) é indexado. A indexação ocorre no mesmo tempo de execução usando as configurações definidas do Tika.
  • No AEM as a Cloud Service, o serviço do Asset Compute lida com a extração de texto e metadados de binários. Esses dados extraídos são então fornecidos ao índice DAM. A configuração OSGi do Tika não influencia esse processo.
  • Não é possível substituir ou personalizar a extração de texto completo para binários na nuvem usando configurações locais do Tika. As configurações do Tika afetam apenas representações locais no AEM SDK e algumas configurações legadas no local.

Leituras

Personalizando o Fluxo de Trabalho de Pós-Processamento nos Tutoriais do AEM Assets.

recommendation-more-help
3d58f420-19b5-47a0-a122-5c9dab55ec7f