A configuração do Tika não está funcionando no AEMaaCS-Assets
No AEMaaCS Assets, as configurações personalizadas de Tika, como a exclusão de PDFs, são ignoradas no ambiente de nuvem, que assume o padrão de configurações prontas para uso (OOTB). Para corrigir esse problema, remova a cláusula "aggregate" do índice damAssetLucene ou exclua o nó /jcr:content/renditions/cqdam.text.txt após o processamento.
Descrição description
Ambiente
- Produto: Adobe Experience Manager as a Cloud Service (AEMaaCS) - Assets
- Instância: Desenvolvimento
Problema/Sintomas
- Um índice Lucene personalizado inclui propriedades específicas e uma configuração personalizada do Apache Tika.
- A configuração do Tika exclui determinados tipos de ativos (por exemplo, PDFs) da indexação e pesquisa.
- A configuração funciona corretamente no ambiente local.
- O ambiente de nuvem ignora a configuração personalizada do Tika.
- O sistema assume o padrão de configurações Tika prontas para uso (OOTB).
- Mensagens de registro confirmam que a configuração padrão do Tika está sendo carregada em vez da personalizada.
Resolução resolution
Para corrigir esse problema, siga estas etapas:
-
Modificar a definição do índice DAM
- Abra a definição do índice damAssetLucene. Para obter mais informações, consulte a documentação do AEM sobre pesquisa e indexação de conteúdo.
- Remova a cláusula de agregação direcionada ao caminho de representação de texto (
/jcr:content/renditions/cqdam.text.txt) para excluir o texto extraído da pesquisa de texto completo.
-
Implementar um workflow de pós-processamento
-
Crie um fluxo de trabalho personalizado do AEM que seja executado depois que o serviço do Asset Compute concluir o processamento.
-
No fluxo de trabalho:
- Adicione uma etapa para excluir o nó
/jcr:content/renditions/cqdam.text.txt. - Como alternativa, substitua o nó por um arquivo vazio para impedir que ele seja indexado.
- Adicione uma etapa para excluir o nó
-
Implante o workflow usando o Cloud Manager e teste-o para confirmar se a indexação de texto indesejada está suprimida.
-
Notas:
- No SDK local/AEM, a configuração do Tika influencia diretamente a forma como o conteúdo binário (por exemplo, PDFs, PNGs, MP4s) é indexado. A indexação ocorre no mesmo tempo de execução usando as configurações definidas do Tika.
- No AEM as a Cloud Service, o serviço do Asset Compute lida com a extração de texto e metadados de binários. Esses dados extraídos são então fornecidos ao índice DAM. A configuração OSGi do Tika não influencia esse processo.
- Não é possível substituir ou personalizar a extração de texto completo para binários na nuvem usando configurações locais do Tika. As configurações do Tika afetam apenas representações locais no AEM SDK e algumas configurações legadas no local.
Leituras
Personalizando o Fluxo de Trabalho de Pós-Processamento nos Tutoriais do AEM Assets.