Problema de gênero do Google Tradutor (e do Bing Translate e do Systran ...)

O Google Translate e outras plataformas de tradução populares costumam fornecer traduções sexistas não intencionais onde, entre outras coisas, doutores são homens e professores são mulheres. O motivo tem a ver com uma mistura complexa de algoritmos, linguística e materiais de origem.

Problema de gênero do Google Tradutor (e do Bing Translate e do Systran ...)

O Google Translate é a plataforma de tradução da web mais popular do mundo, mas um pesquisador da Universidade de Stanford diz que não entende realmente sexo e gênero. Londa Schiebinger, que dirige o Stanford's Inovações de gênero projeto, diz que a escolha do Google de bancos de dados de origem causa um viés estatístico em relação a substantivos e verbos masculinos na tradução. Em um artigo sobre processamento de gênero e linguagem natural , Schiebinger oferece evidências convincentes de que os textos de origem usados ​​com os algoritmos de tradução do Google levam ao sexismo não intencional.

Tradução automática e gênero

Em um estudo de caso revisado por pares publicado em 2013, Schiebinger ilustrou que o Google Translate tem uma tendência a tornar palavras inglesas neutras em termos de gênero (como a, ou nomes ocupacionais, como professor e médico ) para a forma masculina em outras línguas, uma vez que a palavra seja traduzida. No entanto, certas palavras inglesas de gênero neutro são traduzidas para a forma feminina. . . mas apenas quando cumprem certos estereótipos de gênero. Por exemplo, os termos em inglês de gênero neutro um réu e uma enfermeira traduzir para o alemão como um réu e uma enfermeira. Réu traduz-se como masculino, mas enfermeira se traduz automaticamente como feminino.

Onde o Google Translate realmente tropeça, afirma Schiebinger, é na falta de contexto para palavras de gênero neutro em outras línguas quando traduzidas para o inglês. Schiebinger publicou um artigo sobre seu trabalho em um jornal de língua espanhola O país para o inglês por meio do Google Translate e da plataforma rival Systran. Tanto o Google Translate quanto o Systran traduziram as palavras espanholas neutras de gênero suyo e dice como suas e ele disse, apesar do fato de Schiebinger ser mulher.



Esse tipo de palavra traz à tona questões específicas no Bing Translate, Google Translate, Systran e outras plataformas populares de tradução automática. Os engenheiros do Google que trabalham no Translate disseram ao Co.Labs que a tradução de todas as palavras, incluindo as de gênero, é avaliada principalmente por padrões estatísticos em pares de documentos traduzidos encontrados online. Como os dados podem traduzir como ele disse ou ela disse, os algoritmos de Translate olham para combinações de dados em conjunto com palavras vizinhas para ver quais são as traduções mais frequentes dessas combinações. Se os dados renderizarem com mais frequência nas traduções que o Google obtém como ele diz, o Translate normalmente os renderá como masculino, em vez de feminino. Além disso, a equipe do Google Tradutor acrescentou que sua plataforma usa apenas frases individuais para o contexto. Substantivos ou verbos de gênero em frases vizinhas não são avaliados em termos de estabelecimento de contexto.

Material de origem, contexto cultural e gênero

Schiebinger disse ao Co.Labs que o projeto evoluiu de um artigo escrito por um aluno que estava trabalhando em questões de processamento de linguagem natural. Em julho de 2012, foi realizado um workshop na Universidade de Stanford com pesquisadores externos que foi transformado, pós-revisão por pares, em papel de tradução automática.

O Google Translate, que enfrenta o objetivo quase impossível de traduzir com precisão os idiomas do mundo em tempo real, enfrenta questões de gênero há anos. Para o crédito do Google, Mountain View ajusta regularmente os algoritmos do Google Tradutor para corrigir imprecisões de tradução. Os algoritmos de tradução de idiomas são extremamente complicados. Os engenheiros do Google, Bing, Systran e outras empresas não precisam apenas levar em conta a gramática - eles precisam levar em consideração o contexto, o subtexto, os significados implícitos, as peculiaridades culturais e um milhão de outros fatores subjetivos. . . e transformá-los em código.

Mas, no entanto, essas imprecisões existem - especialmente para o gênero. Em uma ocasião, no ano passado, os usuários descobriram que homens que traduzem são homens, e os homens devem limpar a cozinha para o alemão tornaram-se homens são homens, e as mulheres devem limpar a cozinha - o que significa que os homens são homens e mulheres deve limpar a cozinha. Outro usuário do Google Tradutor em alemão encontrado preconceito de trabalho em vários idiomas –Os termos do idioma inglês de gênero Professora de francês, professora de berçário, e professora de culinária todos apareceram nas edições em francês e alemão do Google Translate na forma feminina, enquanto engenheiro, médico, jornalista e presidente foram traduzidos na forma masculina.

Nataly Kelly, autora de Encontrado na tradução: como as línguas moldam nossas vidas e transformam o mundo, cuja firma oferece produtos de tecnologia de linguagem, disse ao Co.Labs que o preconceito masculino na tradução automática é extremamente comum. Se você estiver usando uma abordagem estatística para produzir a tradução, o sistema explorará todas as traduções anteriores e fornecerá o candidato mais provável para uma tradução correta com base na frequência. Dado que os pronomes masculinos foram super-representados ao longo da história na maioria das línguas e culturas, a tradução automática tende a refletir esse viés histórico de gênero, disse Kelly.

Os resultados podem ser altamente confusos, até mesmo imprecisos. Por exemplo, no Google Translate, se você traduzir engenheiro em espanhol, sai como o masculino engenheiro, mas se você colocar engenheira, você pega engenheira sexual, o que significa algo como um engenheiro do sexo feminino. Isso soa muito estranho em espanhol, para dizer o mínimo! Se você digitar engenheira no Bing Translate, você obtém engenheira, o que é tecnicamente correto. Mas ainda assim, você tem que especificar fêmea a fim de produzir um resultado feminino. Você não tem que especificar engenheiro masculino obter engenheiro. Você só precisa digitar engenheiro. [Há] um preconceito de gênero inerente na maioria dos sistemas de tradução automática.

A natureza estatística do corpus

A razão pela qual isso acontece é estatística. Em todas as línguas em que o Google Translate opera, os algoritmos processam o significado, a gramática e o contexto por meio de um grande número de documentos carregados anteriormente. Esses documentos, que variam de idioma para idioma, determinam como o Google Translate realmente funciona. Se o material de origem usado para traduções tiver um viés agregado em termos de um gênero sendo preferido em relação a outro, isso se refletirá nas traduções recebidas pelos usuários.

Quando um usuário dos Grupos do Google questionou preconceito de gênero masculino nas traduções do hebraico em 2010, Xi Cheng do Google observou que o Google Translate é totalmente automatizado por máquina; ninguém está explicitamente impondo regras; a tradução é gerada de acordo com a natureza estatística do corpus que temos.

De acordo com Schiebinger, os sistemas de tradução automática, como o Google Translate, usam dois tipos distintos de corpus. Um corpus paralelo com texto em um idioma que é usado para comparar uma tradução em outro idioma, enquanto um grande corpus monolíngue no idioma de destino para o qual está sendo traduzido é usado para determinar a gramática e o posicionamento das palavras. Se as formas masculinas ou femininas de palavras são sistematicamente favorecidas no corpus usado, isso leva o algoritmo a traduzir a favor daquele gênero específico.

Em última análise, a tradução automática depende de tradutores e lingüistas que fornecem contexto para os algoritmos e o material de origem que usam. Google Translate, Bing Translate e Systran fazem um trabalho incrível de fornecer traduções instantâneas em uma variedade impressionante de idiomas. O desafio para os desenvolvedores de plataformas de tradução é como refinar ainda mais seus produtos e aumentar a precisão - algo que veremos mais no futuro.

[ Imagem do professor: Coleção Everett via Shutterstock ]