Este aplicativo permitirá que você fale profundamente sua própria voz para fins de podcasting

Overdub da Descript pode sintetizar novas palavras ou frases com base no som da voz de um usuário. A empresa diz que é praticamente impossível abusar.

Este aplicativo permitirá que você fale profundamente sua própria voz para fins de podcasting

Agora que o gênio saiu da garrafa em deepfakes - a técnica de IA que gera vídeo ou áudio falso de uma pessoa - Descrição é colocá-lo em uso para fins benignos.



A inicialização da produção de podcast lançou um teste beta privado para um recurso chamado Overdub, que pode usar amostras de áudio da voz de uma pessoa para gerar novas palavras ou frases. A Descript está procurando podcasters, YouTubers, criadores de audiolivros e outros profissionais de áudio para ajudar a testar o novo recurso, que deve ajudar a economizar tempo e dinheiro em regravações.

A ideia aqui é realmente poupar as pessoas de uma viagem de volta à cabine de gravação, o que é uma dor de cabeça se você estiver fazendo qualquer tipo de gravação, diz Andrew Mason, CEO da Descript. Isso realmente abre espaço para que as pessoas sejam capazes de fazer correções editoriais na hora que geralmente soam muito boas e utilizáveis.



Digitando em áudio

Mason, que fundou a Groupon há mais de uma década, criou o Descript em 2017 como um desdobramento de sua startup anterior, um aplicativo de tour de áudio chamado Detour. No processo de criação de tours de áudio, a Detour construiu suas próprias ferramentas que permitiriam aos editores modificar o áudio editando uma transcrição de voz para texto. Exclua uma palavra perdida ou uma frase confusa da transcrição, por exemplo, e ela também desaparecerá da gravação de áudio. Isso acabou sendo muito útil para a edição de podcast, que agora é o principal aplicativo para o software Windows e Mac da Descript.



Supõe-se que o overdub resolva a maior peça que faltava no processador de texto da Descript para o conceito de áudio, permitindo que os usuários gerassem novas palavras, além de apenas deletar ou embaralhar as existentes. Em uma demonstração, Mason me mostrou como ele poderia digitar na transcrição existente de uma dubladora para sintetizar um novo áudio que combinasse com sua voz. Quando limitado a uma única palavra ou frase curta, soava exatamente como a coisa real.

Não vai apenas gerar fala, mas vai fazer isso de uma forma em que tenta fazer uma conexão tonal entre o áudio que veio antes e depois, diz Mason.

Por trás do recurso Overdub está outra startup chamada Lyrebird, que a Descript agora está adquirindo por um valor não revelado e cobrando como sua equipe de pesquisa de IA. Até agora, o Lyrebird permitia que as pessoas clonassem sua própria voz com uma ferramenta em seu site. O processo envolveu a gravação de uma série de frases aleatórias para que o Lyrebird pudesse treinar seu modelo de IA, e levou apenas alguns minutos. Essa ferramenta será encerrada à medida que o Lyrebird incorpora seus recursos de síntese de áudio no Descript.



Você pode imaginar uma série de maneiras pelas quais essa tecnologia pode ser usada para propósitos nefastos. Mas Mason diz que o processo de configuração do Lyrebird impede inerentemente os maus atores de falsificar a voz de outra pessoa. Como exige que o usuário profira frases aleatórias, e essas declarações devem corresponder à transcrição para que o Lyrebird as processe, quem está sendo amostrado quase certamente deve saber que está participando.

É uma coisa muito simples, mas se você pensar bem, não há realmente nada que você possa fazer para contornar isso, diz ele.

Trabalho em progresso

Embora seja uma demonstração impressionante, a geração de voz do Descript ainda tem suas limitações.



Por um lado, a Descript usou horas de áudio para treinar o modelo de IA para sua demonstração, com permissão especial da dubladora. Mason diz que a Descript ainda está descobrindo quanto áudio será necessário para o Overdub, mas reconhece que será mais do que o pequeno punhado de minutos que o Lyrebird estava exigindo em seu site de demonstração.

Isso explica por que a Descript está começando com um beta privado para profissionais de áudio: se um bom modelo de fala requer uma sessão de maratona de emissão de amostras de voz aleatórias, só fará sentido para pessoas que costumam passar horas em um estúdio de gravação.

[Captura de tela: Descrição]

O tipo de cliente que visamos são pessoas que têm seus próprios podcasts ou estão fazendo muito trabalho de áudio de voz e atingir o limite de áudio não é realmente uma preocupação para eles, diz Mason.

Além disso, mesmo com horas de áudio de amostra, a síntese de voz do Descript torna-se mais perceptível quando tem que encadear mais do que algumas palavras. Na demonstração eu ouvi, por exemplo, o áudio do clone gaguejou no meio da palavra boneca quando fazia parte de uma frase sintetizada mais longa. Por enquanto, a tecnologia não será útil para gerar frases completas, muito menos podcasts inteiros.

[Captura de tela: Descrição]

Esperamos que isso mude com o tempo, mas o caso de uso em que estamos focados agora são essas correções editoriais menores que são muito comuns, diz Mason.

A descrição não diz por quanto tempo manterá o Overdub privado ou quão amplamente executará seu teste beta. Mas, a curto prazo, pode servir a outro propósito, chamando a atenção para o software como um todo. O beta privado para Overdub é parte de uma atualização maior do Descript para todos os usuários, adicionando edição multitrack e a capacidade de criar e editar sessões de gravação em grupo pela Internet. É tecnicamente a versão 3.0, mas Mason pensa nela mais como o primeiro grande lançamento do Descript.

É a primeira vez que você será capaz de criar uma sopa podcast com nozes em Descript, diz ele.

Para desenvolver ainda mais o aplicativo, a Descript levantou US $ 15 milhões de Andreessen Horowitz e Redpoint, e está trabalhando em novos recursos de edição, como efeitos de pós-produção e publicação com um clique em plataformas de podcast.

Essas adições podem não ser tão impressionantes tecnicamente quanto o Overdub, mas são tão essenciais para a produção de podcast quanto um corretor ortográfico é para o processamento de texto. Comparado a clonar sua própria voz com IA, eles podem ser um pouco menos perturbadores também.