O Teste de Turing está obsoleto. É hora de construir um novo barômetro para IA

O cientista-chefe da Alexa acha que o antigo benchmark para a computação não é mais relevante para a era da IA ​​de hoje.

O Teste de Turing está obsoleto. É hora de construir um novo barômetro para IA

Este ano marca 70 anos desde Alan Turing publicou o artigo dele apresentando o conceito do Teste de Turing em resposta à pergunta: As máquinas podem pensar? O objetivo do teste era determinar se uma máquina pode exibir um comportamento conversacional indistinguível de um humano. Turing previu que no ano 2000, um humano médio teria menos de 70% de chance de distinguir um AI de um humano em um jogo de imitação onde quem está respondendo - um humano ou um AI - está escondido do avaliador.



Por que nós, como indústria, não conseguimos atingir essa meta, 20 anos depois dessa marca? Acredito que o objetivo proposto por Turing não seja útil para que cientistas de IA como eu trabalhem. O Teste de Turing é repleto de limitações, algumas das quais o próprio Turing debateu em seu artigo seminal. Com a IA agora ubiquamente integrada em nossos telefones, carros e casas, está se tornando cada vez mais óbvio que as pessoas se preocupam muito mais que suas interações com as máquinas sejam úteis, contínuas e transparentes - e que o conceito de máquinas serem indistinguíveis de um humano está fora de alcance . Portanto, é hora de aposentar a tradição que serviu de inspiração por sete décadas e definir um novo desafio que inspira pesquisadores e profissionais igualmente.

O Teste de Turing e a imaginação popular

Nos anos que se seguiram à sua introdução, o Teste de Turing serviu como a estrela norte da IA ​​para a academia. Os primeiros chatbots dos anos 60 e 70, ELIZA e PARRY, eram voltados para a aprovação no teste. Recentemente, em 2014, o chatbot Eugene Goostman declarou que havia passado no Teste de Turing enganando 33% dos juízes que era humano. No entanto, como outros apontaram, a proibição de enganar 30% dos juízes é arbitrária, e mesmo assim a vitória sentida desatualizado para alguns .

Mesmo assim, o Teste de Turing continua a estimular a imaginação popular. O modelo de linguagem Generative Pre-Training Transformer 3 (GPT-3) da OpenAI disparou manchetes sobre seu potencial para vencer o Teste de Turing. Da mesma forma, ainda me perguntam os jornalistas, líderes empresariais e outros observadores: Quando Alexa passará no Teste de Turing? Certamente, o Teste de Turing é uma forma de medir a inteligência de Alexa, mas é consequente e relevante medir a inteligência de Alexa dessa forma?

assista ao eurovision 2019 nos eua

Para responder a essa pergunta, vamos voltar a quando Turing apresentou sua tese pela primeira vez. Em 1950, o primeiro computador comercial tinha ainda para ser vendido , a base para cabos de fibra óptica não seria publicada por mais quatro anos, e o campo da IA ​​não tinha sido formalmente estabelecido - isso viria em 1956. Agora temos 100.000 vezes mais capacidade de computação em nossos telefones do que a Apollo 11, e junto com a computação em nuvem e conectividade de alta largura de banda, as IAs agora podem tomar decisões com base em grandes quantidades de dados em segundos.

Embora a visão original de Turing continue a ser inspiradora, interpretar seu teste como a marca final do progresso da IA ​​é limitado pela época em que foi introduzido. Por um lado, o Teste de Turing praticamente desconta os atributos de máquina da IA ​​de computação rápida e pesquisa de informações, recursos que são alguns dos mais eficazes da IA ​​moderna. A ênfase em enganar os humanos significa que, para uma IA passar no teste de Turing, ela precisa injetar pausas nas respostas a perguntas como, você sabe qual é a raiz cúbica de 3434756? ou quão longe é Seattle de Boston? Na realidade, a IA conhece essas respostas instantaneamente, e fazer uma pausa para fazer com que suas respostas pareçam mais humanas não é o melhor uso de suas habilidades. Além disso, o Teste de Turing não leva em consideração a capacidade crescente da IA ​​de usar sensores para ouvir, ver e sentir o mundo exterior. Em vez disso, é limitado simplesmente ao texto.

modo escuro do emoji da lua do messenger do facebook

Para tornar a IA mais útil hoje, esses sistemas precisam realizar nossas tarefas diárias com eficiência. Se você está pedindo ao seu assistente de IA para desligar as luzes da garagem, você não está procurando um diálogo. Em vez disso, você deseja que ele atenda a essa solicitação e o notifique com um simples reconhecimento, ok ou pronto. Mesmo quando você se envolve em um diálogo extenso com um assistente de IA sobre um tópico de tendência ou tem uma história lida para seu filho, você ainda gostaria de saber que é uma IA e não um humano. Na verdade, enganar os usuários fingindo ser humanos representa um risco real. Imagine as possibilidades distópicas, como já começamos a ver com os bots semeando desinformação e o surgimento de falsificações profundas.

Novos desafios significativos para IA

Em vez de ficarmos obcecados em tornar as IAs indistinguíveis dos humanos, nossa ambição deveria ser construir IAs que aumentem a inteligência humana e melhorem nossas vidas diárias de uma forma que seja igualitária e inclusiva. Um objetivo subjacente que vale a pena é que as IAs exibam atributos de inteligência semelhantes aos humanos - incluindo bom senso, autossupervisão e proficiência no idioma - e combinem a eficiência de máquina, como pesquisas rápidas, recuperação de memória e realização de tarefas em seu nome. O resultado final é aprender e completar uma variedade de tarefas e se adaptar a novas situações, muito além do que uma pessoa normal pode fazer.

Este foco informa a pesquisa atual em áreas da IA ​​que realmente importam - compreensão sensorial, conversação, conhecimento amplo e profundo, aprendizagem eficiente, raciocínio para a tomada de decisões e eliminação de qualquer preconceito ou preconceito inadequado (ou seja, justiça). O progresso nessas áreas pode ser medido de várias maneiras. Uma abordagem é dividir um desafio em tarefas constituintes. Por exemplo, Kaggle's Desafio de abstração e raciocínio concentra-se em resolver tarefas de raciocínio que a IA nunca viu antes. Outra abordagem é projetar um desafio do mundo real em grande escala para a interação humano-computador, como Alexa Prize Socialbot Grand Challenge - uma competição focada em IA de conversação para estudantes universitários.

Na verdade, quando lançamos o Prêmio Alexa em 2016, tivemos um intenso debate sobre como os socialbots concorrentes deveriam ser avaliados. Estamos tentando convencer as pessoas de que o socialbot é humano, implantando uma versão do Teste de Turing? Ou estamos tentando tornar a IA digna de conversar naturalmente para avançar no aprendizado, fornecer entretenimento ou apenas uma distração bem-vinda?

Chegamos a uma rubrica que pede aos bots sociais que conversem de maneira coerente e envolvente por 20 minutos com humanos sobre uma ampla variedade de tópicos populares, incluindo entretenimento, esportes, política e tecnologia. Durante as fases de desenvolvimento que levam às finais, os clientes pontuam os bots se eles gostariam de conversar com os bots novamente. Nas finais, juízes humanos independentes avaliam a coerência e naturalidade e atribuem uma pontuação em uma escala de 5 pontos - e se qualquer um dos bots sociais conversar por uma duração média de 20 minutos e pontuar 4,0 ou mais, então ele alcançará o grande desafio. Embora o grande desafio ainda não tenha sido cumprido, esta metodologia está guiando o desenvolvimento de IA que possui habilidades de conversação semelhantes às humanas, alimentadas por métodos neurais baseados em aprendizado profundo. Ele prioriza métodos que permitem que as IAs exibam humor e empatia quando apropriado, tudo sem fingir ser um humano.

o que está fechado no dia mlk

A ampla adoção de IA como Alexa em nossas vidas diárias é outra oportunidade incrível de medir o progresso em IA. Embora esses serviços de IA dependam de habilidades de conversação semelhantes às humanas para concluir transações simples (por exemplo, definir um alarme) e tarefas complexas (por exemplo, planejar um fim de semana), para maximizar a utilidade, eles vão além da IA ​​de conversação para a IA de ambiente - onde a IA responde às suas solicita quando você precisa, antecipa suas necessidades e desaparece em segundo plano quando você não precisa. Por exemplo, Alexa pode detectar o som de vidro quebrando e alertá-lo para uma ação. Se você definir um alarme enquanto vai para a cama, sugere desligar uma luz conectada no andar de baixo que foi deixada acesa. Outro aspecto de tais IAs é que eles precisam ser especialistas em um grande e crescente número de tarefas, o que só é possível com uma capacidade de aprendizado mais generalizada em vez de inteligência específica para tarefas. Portanto, para a próxima década e além, a utilidade dos serviços de IA, com suas habilidades de assistência conversacional e proativa em dispositivos ambientais, são um teste que vale a pena.

Nada disso é para denegrir a visão original de Turing - o jogo de imitação de Turing foi projetado como um experimento mental, não como o teste final para IA útil. No entanto, agora é a hora de dissipar o Teste de Turing e se inspirar na visão ousada de Alan Turing para acelerar o progresso na construção de IAs projetadas para ajudar os humanos.


Rohit Prasad é vice-presidente e cientista-chefe da Alexa na Amazon.