Configurar transcrição no Experience Manager Assets

A transcrição é o processo de traduzir o áudio de um arquivo de áudio ou vídeo em texto (fala para texto) usando a tecnologia de reconhecimento de voz.
O Adobe Experience Manager Assets está configurado com o Azure Media Services, que gera automaticamente uma transcrição de texto do idioma falado em um arquivo de áudio ou vídeo compatível no formato WebVTT (.vtt). Quando um ativo de áudio ou vídeo é processado no Experience Manager Assets, o serviço de transcrição gera automaticamente a representação da transcrição de texto do ativo de áudio ou vídeo e o armazena no mesmo local no repositório do Assets, onde o ativo original está. O serviço de transcrição do Experience Manager Assets permite que os profissionais de marketing gerenciem efetivamente o conteúdo de áudio e vídeo com mais capacidade de descoberta do conteúdo de texto, além de aumentar o ROI desses ativos ao oferecer suporte à acessibilidade e localização.

As transcrições são versões em texto do conteúdo falado; um exemplo é um filme que você está assistindo em qualquer plataforma OTT, que geralmente inclui legendas ou legendas ocultas para ajudar na acessibilidade ou no consumo do conteúdo em outros idiomas. Ou qualquer arquivo de áudio ou vídeo usado para fins de marketing, aprendizado ou entretenimento. Essas experiências começam com uma transcrição que é formatada ou traduzida conforme apropriado. A transcrição de áudio ou vídeo é um processo que exige muito tempo e pode causar erros quando executado manualmente. Também é um desafio escalar o processo manual, dada a necessidade cada vez maior de conteúdo de áudio e vídeo. O Experience Manager Assets usa a transcrição com IA do Azure, que permite o processamento em alta escala dos ativos de áudio e vídeo e gera as transcrições de texto (arquivos .vtt) junto com detalhes de carimbo de data e hora. Além do Assets, o recurso de transcrição também é compatível com o Dynamic Media.

O recurso de transcrição está disponível sem nenhum custo no Experience Manager Assets. No entanto, os administradores exigem as credenciais do Azure do usuário para configurar o serviço de transcrição no Experience Manager Assets. Você também pode obter credenciais de avaliação diretamente da Microsoft® para experimentar o recurso de transcrição de áudio ou vídeo no Assets.

Pré-requisitos de transcrição

  1. Uma instância ativa e em execução do Experience Manager Assets as a Cloud Service.

  2. As credenciais do Azure a seguir são necessárias para configuração no Experience Manager Assets:

    • ID do cliente (chave de API)
    • Chave secreta do cliente
    • Endpoint do locatário (domínio)
    • Conta de mídia
    • Grupo de recursos
    • ID de assinatura

    Consulte a Documentação do Azure para obter as credenciais de acesso à API dos serviços de mídia do Azure.

  3. Verifique se a conta do Azure tem crédito suficiente para processar novas solicitações.

Configurar transcrição no Experience Manager Assets

A seguir estão as configurações necessárias para habilitar o recurso de transcrição no Experience Manager Assets:

  1. Configurar os serviços de mídia do Azure
  2. Configurar perfil de processamento para transcrição de áudio/vídeo

Configurar os serviços de mídia do Azure

O Experience Manager Assets usa o Azure Media Services que gera automaticamente transcrições de texto do idioma falado em um arquivo de áudio ou vídeo compatível no formato WebVTT (.vtt). Os administradores podem configurar o Azure Media Services no Experience Manager Assets usando as credenciais do Azure. Os pré-requisitos de transcrição listam as credenciais do Azure necessárias para a configuração. Se você não tiver uma conta e as credenciais do Azure, consulte Documentação dos serviços de mídia do Azure para obter credenciais de avaliação.

configure-transcription-service

Acesse Ferramentas > Serviços de nuvem > Configuração dos serviços de mídia do Azure. Selecione uma pasta (local) no painel esquerdo e clique no botão Criar para configurar a conexão com sua conta do Azure. Esta pasta é o local onde a configuração em nuvem do Azure é armazenada no Experience Manager Assets. Insira as credenciais do Azure e clique em Salvar e fechar.

Configurar perfil de processamento para transcrição

Assim que o Azure Media Services for configurado no Experience Manager Assets, a próxima etapa é criar um perfil de processamento de ativo para gerar uma transcrição baseada em IA dos ativos de áudio e vídeo. O perfil de processamento baseado em IA gera transcrições do ativo de áudio ou vídeo compatível como uma representação no Experience Manager Assets e armazena a transcrição (arquivo .vtt) na mesma pasta em que o ativo original está. Assim, é mais fácil para os usuários pesquisar e localizar o ativo e sua representação de transcrição.

Acesse Ferramentas > Ativos > Perfis de processamento e clique no botão Criar para criar um perfil de processamento baseado em IA e gerar a transcrição dos arquivos de áudio e vídeo. Por padrão, a página do perfil de processamento apresenta apenas três guias (Imagem, Vídeo e Personalizado). No entanto, a guia IA de conteúdo ficará visível se você tiver configurado o Azure Media Services na instância do Experience Manager Assets. Verifique as credenciais do Azure se a guia IA de conteúdo não estiver sendo exibida ao criar um perfil de processamento.

Na guia IA de conteúdo, clique no botão Adicionar novo para configurar a transcrição. Aqui, você pode incluir e excluir os formatos de arquivo (tipos MIME) para gerar transcrições selecionando tipos de arquivo na lista suspensa. Na ilustração a seguir, todos os arquivos de áudio e vídeo compatíveis estão incluídos e os arquivos de texto foram excluídos.

Ative a opção Criar transcrição em VTT no mesmo diretório para criar e armazenar a representação de transcrição (arquivo .vtt) na mesma pasta em que o ativo original está. As outras representações também são geradas pelo fluxo de trabalho de processamento de ativos do DAM padrão, independentemente dessa configuração.

configure-transcription-service

A ilustração a seguir detalha um perfil de vídeo personalizado criado no Experience Manager Assets.

configure-transcription-service

O perfil de vídeo também contém as seguintes configurações personalizadas. Consulte a documentação do perfil de processamento para obter detalhes sobre como criar um perfil de processamento personalizado.

configure-transcription-service

Vamos configurar a transcrição neste perfil de vídeo. Navegue até a guia IA de conteúdo e clique no botão Adicionar novo. Inclua todos os arquivos de áudio e vídeo e exclua os arquivos de imagem e aplicativo. Ative a opção Criar transcrição em VTT no mesmo diretório e salve a configuração.

configure-transcription-service

Depois que o perfil de processamento for configurado para transcrição de arquivos de áudio e vídeo, você poderá aplicar esse perfil de processamento às pastas usando um dos seguintes métodos:

  • Selecione uma definição de perfil de processamento em Ferramentas > Ativos > Perfis de processamento e use a ação Aplicar perfil à(s) pasta(s). O navegador de conteúdo permite navegar até uma pasta específica, selecioná-la e confirmar a aplicação do perfil.

  • Selecione uma pasta na interface do Assets e clique na ação Propriedades para abrir as propriedades da pasta. Clique na guia Processamento de ativos e selecione o perfil de processamento apropriado para a pasta na lista Perfil de processamento. Para salvar as alterações, clique em Salvar e fechar.

    configure-transcription-service

  • Os usuários podem selecionar pastas ou ativos específicos na interface do Assets para aplicar um perfil de processamento e, em seguida, selecionar Reprocessar ativos nas opções disponíveis na parte superior.

DICA

Somente um perfil de processamento pode ser aplicado a uma pasta.

Depois que um perfil de processamento é aplicado a uma pasta, todos os novos ativos carregados (ou atualizados) para essa pasta ou para qualquer uma de suas subpastas são processados usando o perfil de processamento adicional configurado. Esse processamento é executado em adição ao do perfil padrão.

OBSERVAÇÃO

Um perfil de processamento aplicado a uma pasta funciona para toda a árvore, no entanto, pode ser substituído por outro perfil aplicado a uma subpasta.

Quando os ativos são carregados para uma pasta, o Experience Manager se comunica com as propriedades da pasta que os contém para identificar o perfil de processamento. Se nenhum for aplicado, uma pasta principal na hierarquia será verificada em busca de um perfil de processamento para ser aplicado.

Gerar transcrição dos ativos de áudio ou vídeo

Ao processar um ativo de vídeo, o Perfil de processamento baseado em IA gera automaticamente a transcrição (arquivo .vtt) como uma representação junto com o ativo original na mesma pasta.

configure-transcription-service

Você também pode visualizar a representação da transcrição acessando as representações do ativo de vídeo original. Para acessar o painel Representações, selecione o ativo de vídeo original e abra o painel à esquerda. Você verá que a representação da transcrição (arquivo .vtt) está visível sob o cabeçalho TRANSCRIPTVTT.

configure-transcription-service

É possível baixar a transcrição (arquivo de texto .vtt) diretamente da pasta como uma representação de ativo separada, ou por meio do painel Representações do ativo original baixando todas as representações do ativo.

Atualmente, o Experience Manager não oferece suporte à pré-visualização ou edição de texto completo de arquivos VTT nativamente. No entanto, é possível baixar a representação da transcrição e usar qualquer editor de texto para editar ou verificar a transcrição. A transcrição reflete o idioma falado como um texto no carimbo de data e hora especificado no vídeo com a pontuação de confiança (precisão) da transcrição.

configure-transcription-service

Utilização de transcrição no Dynamic Media

Se você tiver configurado o Dynamic Media na instância do Experience Manager Assets, é possível publicar o ativo (arquivo de áudio ou vídeo) e sua transcrição (arquivo .vtt) no Dynamic Media. Ao fazer isso, o ativo original (arquivo de áudio ou vídeo) e sua representação transcrita (arquivo .vtt) são publicados no Dynamic Media, ambos na mesma pasta. O administrador do Dynamic Media pode habilitar a experiência de legenda oculta (CC) para o arquivo de áudio ou vídeo usando a representação da transcrição (arquivo .vtt).

Consulte também:

Na ilustração a seguir, o URL reflete a parte da legenda que se refere à transcrição (arquivo .vtt). O vídeo reflete o idioma falado (texto transcrito) como uma Legenda oculta no carimbo de data e hora fornecido no vídeo. O usuário pode ativar ou desativar a legenda usando o botão CC.

configure-transcription-service

Formatos de arquivo compatíveis com a transcrição

Os formatos de arquivo de áudio e vídeo a seguir são compatíveis com a transcrição:

Formatos de áudio/vídeo compatíveis Extensões
FLV (com codecs H.264 e AAC) (.flv)
MXF (.mxf)
MPEG2-PS, MPEG2-TS, 3GP (.ts, .ps, .3gp, .3gpp, .mpg)
Vídeo do Windows Media (WMV)/ASF (.wmv, .asf)
AVI (8 bits/10 bits descompactados) (.avi)
MP4 (.mp4, .m4a, .m4v)
Gravação de vídeo digital da Microsoft® (DVR-MS) (.dvr-ms)
Matroska/WebM (.mkv)
WAVE/WAV (.wav)
QuickTime (.mov)
OBSERVAÇÃO

Os ativos (arquivos de áudio ou vídeo) do tipo de aplicativo não são compatíveis com a transcrição.

Limitações conhecidas

  • O recurso de transcrição é compatível com vídeos de duração máxima de 10 minutos.
  • O título do vídeo deve ter menos de 80 caracteres.
  • O tamanho de arquivo permitido é de até 15 GB.
  • A duração máxima de processamento permitida é de 60 minutos.
  • Em uma conta paga do Azure, você pode fazer upload de até 50 filmes por minuto. No entanto, em uma conta de avaliação, você pode fazer upload de até cinco filmes por minuto.

Dicas de solução de problemas

Faça logon na conta do Azure Media Services com as mesmas credenciais (usadas para configuração) para verificar o status da solicitação. Entre em contato com o suporte do Azure caso sua solicitação não seja processada.

Nesta página