O verdadeiro motivo do Google Assistente ter sido lançado com uma voz feminina: dados tendenciosos

Vozes sintetizadas distorcidas femininas têm uma longa história e se tornaram uma profecia autorrealizável. Mas a nova tecnologia está ajudando o Google a superar antigos preconceitos.

O verdadeiro motivo do Google Assistente ter sido lançado com uma voz feminina: dados tendenciosos

Os assistentes de voz são historicamente mulheres. De Siri e Alexa a Cortana e o Google Assistant, a maioria das versões computadorizadas de assistentes administrativos foi lançada com uma voz feminina e, na maioria dos casos, um nome feminino.

Por anos, as empresas por trás desses assistentes de voz foram criticados por usarem nomes e vozes femininas , em parte porque seus ajudantes desencarnados agem de forma semelhante aos empregados domésticos - uma decisão que desempenha papéis de gênero históricos. O mais flagrante é que a Cortana da Microsoft foi nomeada em homenagem a um personagem mal vestido do videogame Olá . (Talvez os engenheiros da empresa tenham pensado que mandar em Cortana seria a ideia de diversão do usuário.) Embora as vozes masculinas agora estejam geralmente disponíveis como uma opção, as femininas continuam sendo o padrão.

Há outra razão frequentemente citada de que esses assistentes de voz, junto com seus predecessores em sistemas de voz gravada, como menus de correio de voz, também são predominantemente femininos. Estudos encontraram mais pessoas tendem a preferir ouvir vozes femininas , possivelmente porque a experiência data de quando estávamos todos no útero. No entanto, essa ideia também tem sido contestada por algumas experiências do mundo real : As mulheres às vezes recebem reclamações sobre seus tiques vocais ou são tratadas com menos seriedade por causa deles (mesmo quando as vozes dos homens têm as mesmas peculiaridades).



Mas, de acordo com o Google, esses não são os motivos mais importantes pelos quais, quando lançou o Google Assistente em 2016, escolheu uma voz feminina - e, não por acaso, um nome de gênero neutro. Isso porque o Google realmente queria lançar seu principal assistente de voz com uma voz masculina e feminina. Mas havia uma razão técnica pela qual isso não acontecia: havia um viés histórico em seus sistemas de conversão de texto em fala, que haviam sido treinados principalmente para vozes femininas.

Como [os sistemas] foram treinados com dados femininos, eles tiveram um desempenho geralmente melhor com vozes femininas, diz Brant Ward, gerente global de engenharia de texto para fala do Google.

Enquanto a equipe que trabalhava na personalidade do Google Assistente pressionava por uma voz feminina e masculina, a empresa acabou decidindo não criar uma voz masculina.

Na época, não estávamos confiantes de que conseguiríamos obter a qualidade, diz Ward. Demorou mais de um ano para fazer isso, e você não quer depois de um ano para dizer: ‘Não é bom o suficiente’. O Google realmente precisa oferecer ótima qualidade.

O Google Assistente agora permite que você escolha entre diferentes vozes. [Animação: Google]

Ele explica que parte do sistema de conversão de texto em voz mais antigo do Google, que juntava pedaços de áudio de gravações, usava um algoritmo de reconhecimento de voz que colocava marcadores em diferentes lugares nas frases para ensinar ao sistema onde os sons e as palavras começavam e terminavam.

o que significa 11

Se bem me lembro, esses marcadores não foram colocados com tanta precisão [para uma voz masculina], diz Ward. Já trabalhei em muitos sistemas e sempre foi mais difícil obter qualidade em uma voz masculina, provavelmente porque esses sistemas, independentemente de sua origem, foram treinados em mais dados femininos do que masculinos.

Um paradigma difícil de abalar

Por que os sistemas do Google foram treinados principalmente para dados de voz feminina em primeiro lugar? Ward afirma que vozes agudas tendem a ser mais fáceis de entender, outro argumento que costuma ser usado para explicar por que tantos assistentes de voz são mulheres. No entanto, há nenhuma evidência de que tons mais altos são mais fáceis de ouvir - na verdade, as pessoas tendem a perder a capacidade de ouvir ruídos agudos à medida que envelhecem. Ainda assim, um estudo influente de 1996 mostrou que as pessoas tendem a entender as mulheres melhor do que os homens, mas porque as mulheres tendem a articular os sons das vogais com mais clareza, não por causa do tom de suas vozes.

A ideia de que as vozes femininas são mais inteligíveis foi incorporada à disciplina de conversão de texto em fala por décadas, e Ward até mesmo menciona isso como a razão de as primeiras operadoras de telefone serem predominantemente mulheres (a outra razão é que as mulheres eram trabalhadoras baratas, já que poucas profissões estavam abertas a elas no início do século 20 ) Ward chama o uso predominante de vozes femininas na conversão de texto em fala de um paradigma estabelecido - um paradigma que ficou tão profundamente codificado no sistema do Google que a empresa decidiu não tentar criar uma voz masculina. O motivo pelo qual o sistema de conversão de texto em fala acabou com dados tendenciosos parece ser uma confluência de pesquisas, percepções amplamente aceitas e, possivelmente, inércia na indústria.

Outros especialistas em conversão de texto em fala dizem que não há nenhuma diferença técnica entre a engenharia de vozes femininas e masculinas. Pessoalmente, como desenvolvedor, acho que é provavelmente uma declaração um pouco tendenciosa, diz Johan Wouters, o diretor de tecnologias de texto para fala da Cerence, uma empresa que cria vozes para negócios que recentemente se separaram da Nuance, um antigo líder em tecnologias de voz. Eu não vi nenhuma evidência científica. . . Podemos construir vozes de alta qualidade para ambos os sexos e, em minha opinião, a facilidade de desenvolvimento não é o fator principal aqui.

[Capturas de tela: Google]

jantar de correspondentes da casa branca de michelle wolf
No Fast Company ’ s pedido, Wouters analisou as bibliotecas combinadas de Cerence e Nuance, que incluem mais de 140 vozes de prateleira e mais de 50 vozes personalizadas. Ele não encontrou nenhuma diferença estatisticamente significativa na qualidade entre as vozes masculina e feminina, inclusive para vozes construídas usando métodos que unem gravações vocais, semelhante à forma como Ward descreve a criação da voz original do Google Assistente. (Quando questionado sobre a opinião de Wouters, Ward, que costumava trabalhar na Nuance, disse que seus comentários se aplicam apenas ao sistema do Google.)

Em direção a uma multidão de vozes

Com o advento da nova tecnologia de aprendizado de máquina, o sistema de conversão de texto em voz mais antigo do Google logo se tornou desatualizado. Poucos meses depois de lançar o Google Assistant em maio de 2016 com uma voz feminina, os pesquisadores de voz do Google se juntaram ao laboratório de IA da Alphabet, DeepMind, para criar um novo tipo de algoritmo que não apenas reduzisse a quantidade de gravações de voz necessárias, mas também pudesse gerar vozes muito mais realistas. Dentro de um ano ou mais, os pesquisadores foram capazes de usar o algoritmo, chamado WaveNet , para lançar uma nova voz feminina mais naturalista para o Google Assistente, seguida rapidamente por uma voz masculina em outubro de 2017. O WaveNet agora capacita todas as vozes do Google Assistente. É tão realista que o Google até o usou para criar uma voz familiar: a de John Legend . Uma coisa é criar uma voz que soe humana, mas outra coisa é imitar de forma realista uma voz que muitas pessoas irão reconhecer.

Os usuários podem optar por ouvir os tons suaves de John Legend no Google Assistente. [Captura de tela: Google]

O Google está apenas começando com o WaveNet. Hoje, o Google está anunciando que está trazendo vozes masculinas para sete novos países que antes só tinham vozes femininas. Além disso, o Google está trazendo vozes femininas para a Coréia e a Itália, que originalmente lançaram vozes masculinas padrão feitas com a tecnologia WaveNet. (O gênero da voz padrão varia de acordo com o país.)

A empresa também instituiu outras tentativas de ser mais inclusiva. A versão americana do Google Assistant oferece atualmente um total de 11 vozes, incluindo aquelas com sotaque britânico e um leve sotaque sulista. Mas há uma boa chance de que a maioria dos usuários nunca mude a voz carregada em seus smartphones Android, alto-falantes do Google Home ou outro dispositivo com Google Assistente ativado por padrão. Para remediar isso, o Google agora randomiza quais de suas duas vozes básicas, uma masculina e uma feminina, são atribuídas a novos usuários, dando aos usuários uma chance de 50-50 de obter cada uma.

Olhando para o futuro, Ward espera um dia ser capaz de oferecer ainda mais personalização. Imagine que, em vez de escolher uma única voz, você pudesse misturar e combinar diferentes atributos ou elementos do Google Assistente, como configurá-lo para ser mais profissional durante o horário comercial e mais casual após o expediente. Ward imagina algo como o sistema de computador em Interestelar , que o personagem de Matthew McConaughey pede para diminuir sua configuração de humor depois de algumas piadas não tão divertidas.

Embora a tecnologia de conversão de texto em voz do Google tenha melhorado muito, a história de por que o Google Assistente é feminino contém uma lição importante sobre como o preconceito de gênero, entre outros tipos de preconceito, pode se infiltrar na tecnologia. Nesse caso, uma preferência percebida por vozes femininas levou a sistemas treinados em dados mais femininos que eram ativamente piores na criação de vozes masculinas, criando um ciclo de feedback.

Olhando para trás, é mais fácil dizer que é provavelmente por isso que aconteceu, diz Ward do Google. No momento, você está apenas tentando fazer o trabalho avançar, e foi um esforço baseado em dados. Você é tão bom quanto seus dados.