O Facebook está apostando que a próxima grande interface é a conversa

Os bots ainda não conseguem conversar como humanos. Mas os pesquisadores de IA do Facebook estão fazendo grandes incursões - com implicações para os aplicativos de mensagens da empresa e muito mais.

O Facebook está apostando que a próxima grande interface é a conversa

Este artigo faz parte de Fast Company ’ s série editorial As novas regras da IA . Mais de 60 anos na era da inteligência artificial, as maiores empresas de tecnologia do mundo estão apenas começando a descobrir o que é possível com IA - e lutar para descobrir como isso pode mudar nosso futuro. Clique aqui para ler todas as histórias da série.


Em 2015, os chatbots eram grandes. E um dos mais badalados foi o do Facebook M, que a empresa pretendia ser um robô flexível e de uso geral que poderia fazer muitas coisas diferentes, como comprar itens, providenciar entregas de presentes, reservar mesas em restaurantes e planejar viagens. Mas o zumbido era muito maior do que o bot. Quando o Facebook testou o M com um grupo de 2.500 pessoas na Bay Area, o software não conseguiu realizar a maioria das tarefas que foi solicitado.

Após a explosão inicial de entusiasmo por M e outros chatbots (os bots são os novos aplicativos, CEO da Microsoft, Satya Nadella proclamado ), seguiu-se uma onda de decepção. Os chatbots não eram tanto faladores quanto robóticos. Isso porque eles foram treinados para falar apenas sobre um pequeno conjunto de coisas e para realizar tarefas específicas e limitadas. Eles não eram capazes de ter uma conversa natural com as pessoas, gerando suas próprias respostas com base em uma compreensão geral das palavras e seus significados. Eles só podiam fornecer respostas genéricas.



Antes que M deixasse o beta, o Facebook reduziu seu grande plano para o bot, embora parte de sua tecnologia de linguagem natural tenha chegado a chatbots do Messenger muito menos ousados ​​que podiam fazer coisas simples e únicas, como receber pedidos de comida ou fornecer informações de perguntas e respostas. Empresas como American Express e 1-800-FLOWERS ainda usam esse tipo de chatbot de baixa ambição para responder a perguntas de atendimento ao cliente, receber pedidos básicos e fornecer saldos de contas. Muitos irão conectá-lo a um representante humano se você perguntar a eles algo fora de sua compreensão limitada.


Relacionado: O concierge do M AI do Facebook está morto, viva o M


Mas o grupo de pesquisa de IA do Facebook mudou desse tipo de chatbot obstinado. O que temos dito nos últimos três a quatro anos é que a pesquisa sobre o diálogo orientado por objetivos não é o caminho que precisamos explorar, porque é muito difícil, as apostas são muito altas, disse-me o pesquisador de linguagem natural do Facebook, Antoine Bordes. Se um chatbot de viagem reserva o avião errado, o voo errado, isso é um grande erro em termos de dinheiro, em termos de viagens, etc., diz ele.

Em vez de se concentrar na mecânica de tarefas específicas, explica Bordes, o Facebook está recuando para resolver um problema mais profundo - ensinar agentes virtuais a conversar como pessoas. Se os chatbots puderem entender e se comunicar melhor com os humanos, pensa-se, eles podem eventualmente ser melhores assistentes que podem ajudar as pessoas a realizar tarefas práticas, como reservar passagens aéreas.

O Facebook tem investido seriamente nesse esforço, contratando alguns dos melhores talentos em IA de linguagem natural. A empresa gosta de salientar que, ao contrário de algumas grandes empresas de tecnologia, ela disponibiliza os resultados de sua pesquisa de IA para toda a comunidade de pesquisa publicando-os on-line , onde pode ajudar outras pessoas que estão construindo IA de próxima geração. Mas essa pesquisa certamente terminará em seus próprios produtos também.

Os aplicativos de mensagens são um lar natural, incluindo Messenger e WhatsApp, o último dos quais o Facebook também possui e é ainda tentando descobrir como monetizar . Com o CEO Mark Zuckerberg falando sobre uma nova visão para a empresa com maior ênfase em conversas privadas, o Messenger e o WhatsApp precisarão adicionar recursos para manter sua liderança sobre outras plataformas de mensagens, como WeChat, Telegram e iMessage da Apple.

melhores estojos para iphone 6

Construir um algoritmo que possa bater um papo casualmente com uma pessoa se tornou um objetivo principal para grandes empresas de tecnologia, com Amazon, Google e Microsoft se juntando ao Facebook para apostar no poder da conversa humana - não apenas em aplicativos de mensagens baseados em texto, mas também para assistentes de voz e outras experiências. Graças às recentes incursões de pesquisas, o caminho para o computador verdadeiramente coloquial tornou-se repentinamente mais claro, mas o prêmio de chegar lá primeiro ainda está em jogo.

Em outras palavras, a pesquisa de linguagem natural do Facebook é muito mais do que apenas ressuscitar o M ou melhorar os chatbots baseados no Messenger. É sobre o futuro de toda a empresa.

Entre na rede neural

Construir um agente digital que pode ter uma conversa realista com uma pessoa é sem dúvida o mais difícil de todos os problemas de linguagem natural. Requer uma máquina para aprender um dicionário cheio de palavras, com todos os seus usos e nuances, e então usá-las em uma conversa ao vivo com um ser humano imprevisível.

Apenas nos últimos anos a comunidade de IA de linguagem natural começou a dar passos maiores em direção aos bots de conhecimento geral. Isso se deve em parte aos grandes avanços nas redes neurais, que são algoritmos de aprendizado de máquina que reconhecem padrões por meio da análise de grandes quantidades de dados.

Durante a maior parte da história da IA, os seres humanos cuidaram do software enquanto ele passava pelo processo de aprendizado de máquina. Em uma técnica chamada aprendizado supervisionado, o professor humano treina lentamente a rede neural ao longo do tempo, fornecendo a resposta correta para um problema e, em seguida, ajustando o algoritmo para que alcance a mesma solução.

A aprendizagem supervisionada pode funcionar bem quando há muitos dados que foram meticulosamente rotulados - digamos, identificando fotos com gatos, cães ou outros itens neles. Mas essa abordagem geralmente não funciona no mundo do chatbot. Transcrições rotuladas de milhares de horas de conversas reais entre humanos são difíceis de encontrar em grandes quantidades e são caras para uma única empresa criar.

onde estão todas as enxadas

Relacionado: Para entender a inteligência artificial em 2019, assista a este programa de TV de 1960


Como é tão difícil ensinar chatbots como ter conversas usando esses métodos mais antigos, os pesquisadores têm procurado alternativas para o aprendizado supervisionado que permita que as redes neurais aprendam com os dados por conta própria, sem um humano no circuito.

Uma maneira de reduzir a necessidade de dados de treinamento é ensinar à máquina um nível básico de bom senso. Se um computador tem alguma compreensão do mundo - como o tamanho relativo dos objetos, como as pessoas os usam e algum conhecimento de como as leis da física os impactam - ele pode ser capaz de restringir suas escolhas apenas àqueles dentro do reino da possibilidade .

As pessoas fazem isso naturalmente. Por exemplo, digamos que você esteja dirigindo um carro próximo a um penhasco íngreme e de repente veja uma grande rocha na estrada à frente. Você deseja evitar bater na rocha. Mas, ao considerar suas opções, você nunca decidirá fazer uma curva repentina e brusca em direção ao lado do penhasco. Você sabe que o carro cairia violentamente nas rochas abaixo, por causa da gravidade.

Yann LeCun [Foto: cortesia do Facebook]

A maior parte do aprendizado que fazemos. . . é por esta observação do mundo, diz o vice-presidente do Facebook e cientista-chefe de IA Yann LeCun, um lenda no campo de IA que está enfrentando seus maiores desafios desde a década de 1980. Aprendemos muitas coisas com nossos pais e outras pessoas, mas também estamos aprendendo muito apenas interagindo com o mundo, tentando, fracassando e corrigindo.

IA que é treinada usando esta técnica, chamada de aprendizagem não supervisionada, funciona da mesma maneira. Um carro autônomo, por exemplo, coleta dados sobre o mundo por meio de seus diversos sensores e câmeras, como uma criança aprende sobre o mundo por meio de seus cinco sentidos. Com essa abordagem, os cientistas fornecem à máquina grandes quantidades de dados de treinamento para mastigar. Eles não pedem para gerar uma resposta certa ou persuadi-lo em direção a um determinado objetivo. Em vez disso, eles pedem apenas para processar e aprender com os dados, para encontrar padrões e mapear relacionamentos entre diversos pontos de dados.

Em muitos casos, esses dados necessários são difíceis de obter. Mas há uma área da IA ​​em que a rede neural pode aprender muito sobre o mundo sem a necessidade de sensores: o processamento de linguagem natural. Os pesquisadores podem usar uma grande quantidade de texto existente para ajudar os algoritmos a entender o mundo humano - o que é uma parte necessária para entender a linguagem.

Digamos que uma rede neural receba estas duas frases para compreender:

    O troféu não cabe na mala porque é muito grande.
    O troféu não cabe na mala porque é muito pequeno.

Para saber que se refere a coisas diferentes em cada frase, o modelo precisa saber algo sobre os objetos no mundo e sua relação uns com os outros. Há estrutura suficiente no texto em que eles estão sendo treinados para saber que quando você tem um objeto que se encaixa em outro, então um deles não cabe se for muito grande, diz LeCun.

Essa técnica pode acabar sendo o segredo de uma nova geração de chatbots do Facebook mais comunicativos e úteis.

Conheça BERT e RoBERTa

Os avanços atuais no treinamento não supervisionado de sistemas de linguagem natural começaram no Google em 2018. Seus pesquisadores criaram um modelo de aprendizado profundo, denominado BERT (Bidirectional Encoder Representations from Transformers), e deu a ele o texto não anotado de 11.038 livros junto com 2,5 bilhões de palavras de entradas da Wikipedia em inglês. Os pesquisadores mascararam aleatoriamente certas palavras no texto e desafiaram o modelo a descobrir como preenchê-las.

Depois que a rede neural analisou todo o texto de treinamento, ela encontrou padrões de palavras e frases que frequentemente apareciam no mesmo contexto, ajudando-a a entender as relações básicas entre as palavras. E uma vez que as palavras são representações de objetos ou conceitos no mundo real, o modelo aprendeu mais do que apenas relações linguísticas entre palavras: ele começou a compreender como os objetos se relacionam entre si.

BERT não foi o primeiro modelo a usar uma abordagem não supervisionada para treinar um computador para entender a linguagem humana. Mas foi o primeiro a aprender o significado de uma palavra em seu contexto.

espírito número 444

Eu diria que está entre as duas ou três grandes inovações no processamento de linguagem natural, diz Jianfeng Gao, gerente de pesquisa de parceiro no Deep Learning Group da Microsoft Research. Você vê as pessoas usando o modelo como uma nova linha de base para construir todos os outros modelos de processamento de linguagem natural. Até agora, o artigo de pesquisa do BERT tem mais de 1.000 citações acadêmicas, conforme outros pesquisadores construíram no modelo do Google.


Relacionado: A iniciativa de privacidade do Facebook coloca o Messenger no centro das atenções, mas as armadilhas são abundantes


LeCun e sua equipe estão entre eles. Eles construíram sua própria versão do modelo, depois fizeram alguns ajustes de otimização, expandiram consideravelmente a quantidade de dados de treinamento e aumentaram o tempo de treinamento permitido. Depois que a rede neural executou bilhões de cálculos, o modelo de linguagem do Facebook, chamado RoBERTa, teve um desempenho consideravelmente melhor do que o modelo do Google. Ele demonstrou um nível de precisão de 88,5% em comparação com o BERT, que atingiu 80,5%.

BERT e RoBERTa representam uma abordagem radicalmente nova para ensinar computadores a conversar. No processo de fazer isso, o sistema tem que representar o significado das palavras que vê, a estrutura da frase, o contexto, diz LeCun. Como resultado, ele meio que aprende do que se trata a linguagem, o que é estranho porque ele não sabe nada sobre a realidade física do mundo. Não tem visão, não tem audição, não tem nada. Tudo o que ele conhece é a linguagem - letras, palavras e frases.

Aproximando-se de uma conversa real

LeCun diz que um modelo de linguagem natural treinado usando BERT ou RoBERTa ainda não tem muito bom senso - apenas o suficiente para começar a gerar respostas de bate-papo baseadas em uma ampla base de conhecimento geral. É realmente apenas o começo do processo para treinar um algoritmo para falar como uma pessoa.

Os pesquisadores de linguagem natural do Facebook também estão tentando construir mais recursos de conversação no topo da fundação de RoBERTa. Eles começaram estudando conversas humanas reais com chatbots para entender como e quando a conversa pode ser interrompida ou entediante. Suas descobertas impulsionaram pesquisas que propõem maneiras de treinar um bot para evitar os tipos mais comuns de falhas de conversação.

Por exemplo, os chatbots muitas vezes se contradizem porque não se lembram do que já disseram em uma conversa. Um chatbot pode proclamar seu amor por Cavaleiro é executado novamente em um minuto e diz que não gosta de programas de TV no próximo. Os chatbots que criam suas próprias respostas originais (em vez de recuperar exemplos dos dados de treinamento) têm a tendência de responder a perguntas de maneiras vagas para evitar erros. Freqüentemente, parecem emocionalmente surdos, o que os torna menos atraentes.

Os chatbots também precisam ser capazes de recorrer ao conhecimento para serem conversadores interessantes. Aqueles que podem se basear em uma gama diversificada de informações têm muito mais probabilidade de manter conversas mais longas com humanos. Mas os chatbots atuais são treinados com o conhecimento de uma única área que corresponde à tarefa para a qual o bot foi projetado - o que se torna um problema quando os seres humanos começam a fazer comentários sobre assuntos que estão fora do domínio do bot. Pergunte a um robô entregador de pizza sobre qualquer assunto que não seja pizza, por exemplo, e a conversa rapidamente se desenvolverá.

Por que o Twitter precisa do meu número de telefone?

Relacionado: Como fazer chatbots com os quais valha a pena conversar


Como um antídoto, os pesquisadores do Facebook têm trabalhado para treinar modelos de linguagem natural para extrair dados de muitos domínios de conhecimento e trabalhar essa informação no fluxo da conversa de maneiras naturais. Pesquisas futuras se concentrarão em ensinar bots quando e como conduzir a conversa de um tópico geral para uma tarefa específica.

Um dos maiores desafios do desenvolvimento de chatbots é permitir que eles continuem aprendendo depois de implantados. O significado das palavras pode mudar com o tempo, e novos termos e gírias se tornam culturalmente importantes. Ao mesmo tempo, um chatbot não pode ser muito sugestionável - o chatbot Tay da Microsoft aprendeu muito cedo com suas conversas online e se transformou em um racista insultuoso em 24 horas. O Facebook está ensinando seus chatbots experimentais a aprender com os momentos em que as conversas vão bem e a analisar a linguagem de um parceiro de bate-papo humano para descobrir se um bot disse algo estúpido ou chato.

Seria perigoso prever quando os avanços que o Facebook está fazendo no laboratório podem resultar em chatbots de mensagens que podem se envolver em um diálogo até com habilidades humanas superficiais. Mas pode não demorar muito até que possamos julgar os resultados por nós mesmos. Acreditamos que estamos muito próximos de ter um bot onde as pessoas possam falar com ele e ver o valor nele, disse-me o pesquisador do Facebook Jason Weston.