Emulação de voz (reprodução de voz)

Emulação de voz é a reprodução gerada por software da fala de um indivíduo. O software aplica tecnologias avançadas como aprendizagem profunda e neural redes to síntese de voz, tornando possível to imitar as vozes de pessoas específicas.

Lyrebird, uma inicialização da IA canadense baseada em Montreal, lançou um software que pode produzir uma imitação da fala de qualquer pessoa a partir de um único minuto de áudio. Os algoritmos do Lyrebird podem tomar uma gravação de 60 segundos da fala de uma pessoa como entrada e gerar até mil frases em meio segundo. O software pode alterar a entonação para corresponder a uma emoção desejada, de modo que a fala de saída soa excitada, por exemplo, ou zangada ou estressada.

Adobe está trabalhando em uma tecnologia similar. O sistema VoCo do projeto da empresa requer 20 minutos de entrada mas depois permite ao usuário editar o texto de forma similar à forma como o Adobe Photoshop torna possível alterar imagens.

A tecnologia ainda não é sofisticada o suficiente para ser completamente convincente, mas aplicações potenciais de emulação de voz são promissoras. O software do Lyrebird pode tornar possível para você ter seu ator favorito lendo um livro para você, ou você pode "ler" um livro para seu filho quando você estiver longe de casa. O software também poderia habilitar próteses de fala para deficientes, reproduzindo a voz real do usuário.

Outras aplicações de emulação de voz are menos benignas. Um atacante poderia usar a tecnologia para mascarar como um usuário autorizado em um sistema de reconhecimento de voz, por exemplo, ou to imitar a voz de alguém dizendo algo que eles não tinham realmente dito. Tais declarações podem ser usadas para prejudicar a reputação de um alvo ou para espalhar informações falsas ou armadas.