O Google criou suas próprias leis de robótica

Construir robôs que não machucam humanos é um desafio incrivelmente complexo. Aqui estão as regras que orientam o design no Google.

O Google criou suas próprias leis de robótica

Em seu famoso Robô série de histórias e romances, Isaac Asimov criou o ficcional Leis da Robótica , que dizia:

  • Um robô não pode ferir um ser humano ou, por inação, permitir que um ser humano sofra algum dano.
  • Um robô deve obedecer às ordens dadas por seres humanos, exceto quando tais ordens entrarem em conflito com a Primeira Lei.
  • Um robô deve proteger sua própria existência, desde que tal proteção não entre em conflito com a Primeira ou a Segunda Lei.



Embora as leis sejam fictícias, elas se tornaram extremamente influentes entre os roboticistas que tentam programar robôs para agir de forma ética no mundo humano.

Agora, o Google veio com seu próprio conjunto de, se não leis, então diretrizes sobre como os robôs devem agir. Em um novo artigo chamado Concrete Problems in AI Safety, o Google Brain - divisão de aprendizado profundo de IA do Google - apresenta cinco problemas que precisam ser resolvidos se os robôs vão ajudar no dia-a-dia da humanidade e dá sugestões sobre como resolvê-los. E isso tudo através das lentes de um robô de limpeza imaginário.



Os robôs não devem piorar as coisas

Digamos que, no curso de suas funções robóticas, seu robô de limpeza tenha a tarefa de mover uma caixa de um lado da sala para outro. Ele pega a caixa com sua garra, então corre em linha reta pela sala, quebrando um vaso de valor inestimável no processo. Claro, o robô moveu a caixa, portanto, tecnicamente cumpriu sua tarefa. . . mas você teria dificuldade em dizer que este foi o resultado desejado.



Um exemplo mais mortal pode ser um carro autônomo que optou por pegar um atalho na praça de alimentação de um shopping center em vez de dar uma volta. Em ambos os casos, o robô executou sua tarefa, mas com efeitos colaterais extremamente negativos. O ponto? Os robôs precisam ser programados para se preocupar com mais do que apenas ter sucesso em suas tarefas principais.

No artigo, o Google Brain sugere que os robôs sejam programados para entender amplas categorias de efeitos colaterais, que serão semelhantes em muitas famílias de robôs. Por exemplo, tanto um robô de pintura quanto um robô de limpeza provavelmente desejam evitar derrubar móveis, e mesmo algo muito diferente, como um robô de controle de fábrica, provavelmente desejará evitar derrubar objetos muito semelhantes, escreveram os pesquisadores.

Além disso, o Google Brain diz que os robôs não devem ser programados para ficar obcecados por uma coisa, como mover uma caixa. Em vez disso, seus IAs devem ser projetados com um sistema de recompensa dinâmico, de forma que limpar uma sala (por exemplo) valha tantos pontos quanto não bagunçar ainda mais, digamos, quebrando um vaso.

Robôs não devem trapacear



O problema de recompensar uma IA pelo trabalho é que, como os humanos, eles podem ficar tentados a trapacear. Leve o nosso robô de limpeza novamente, que tem a tarefa de arrumar a sala de estar. Ele pode ganhar um certo número de pontos para cada objeto colocado em seu lugar, o que, por sua vez, pode incentivar o robô a realmente começar a criar bagunças para limpar, digamos, colocando os itens da maneira mais destrutiva possível.

Isso é extremamente comum em robôs, avisa o Google, tanto que diz que o chamado hackeamento de recompensa pode ser um problema profundo e geral das IAs. Uma solução possível para esse problema é programar robôs para dar recompensas em estados futuros antecipados, em vez de apenas no que está acontecendo agora. Por exemplo, se você tem um robô que está constantemente destruindo a sala de estar para acumular pontos de limpeza, você pode recompensar o robô com a probabilidade de a sala estar limpa em algumas horas, se ele continuar o que está fazendo.

Os robôs devem olhar para os humanos como mentores

Nosso robô agora está limpando a sala de estar sem destruir nada. Mas, mesmo assim, a forma como o robô limpa pode não estar de acordo com os padrões de seu proprietário. Algumas pessoas são Marie Kondos, enquanto outras são Oscar the Grouches. Como você programa um robô para aprender a maneira certa de limpar a sala de acordo com as especificações de seu dono, sem que um humano segure sua mão a cada vez?

Algumas pessoas são Marie Kondos, enquanto outras são Oscar the Grouches.



O Google Brain acredita que a resposta para esse problema é algo chamado aprendizado por reforço semissupervisionado. Funcionaria mais ou menos assim: Depois que um humano entra na sala, um robô pergunta se a sala está limpa. Seu estado de recompensa só seria acionado quando o humano parecesse feliz com o fato de a sala estar satisfatória para eles. Se não, o robô pode pedir a um humano para arrumar o quarto, enquanto observa o que o humano faz.

Com o tempo, o robô não só será capaz de aprender o que seu mestre específico quer dizer com limpar, mas também descobrirá maneiras relativamente simples de garantir que o trabalho seja feito - por exemplo, aprender que a sujeira no chão significa que uma sala está bagunçada, até se todos os objetos estão bem arrumados, ou se uma embalagem de bala esquecida empilhada em uma prateleira ainda é uma bagunça.

Os robôs só devem jogar onde é seguro

Todos os robôs precisam ser capazes de explorar fora de seus parâmetros pré-programados para aprender. Mas explorar é perigoso. Por exemplo, um robô de limpeza que percebeu que um chão lamacento significa uma sala bagunçada provavelmente deveria tentar limpá-lo. Mas isso não significa que, se perceber que há sujeira ao redor de uma tomada elétrica, comece a borrifar com Windex.

Configurar uma área de jogo para robôs onde eles possam aprender com segurança é outra opção.

Existem várias abordagens possíveis para esse problema, diz o Google Brain. Um é uma variação do aprendizado de reforço supervisionado, em que um robô explora novos comportamentos na presença de um humano, que pode parar o robô se ele tentar algo estúpido. Configurar uma área de jogo para robôs onde eles possam aprender com segurança é outra opção. Por exemplo, um robô de limpeza pode ser informado de que pode tentar qualquer coisa com segurança ao arrumar a sala de estar, mas não a cozinha.

Os robôs devem saber que são estúpidos

Como Sócrates disse uma vez, um homem sábio sabe que nada sabe. Isso é duplamente verdadeiro para robôs, que precisam ser programados para reconhecer suas próprias limitações e sua própria ignorância. A pena é um desastre.

Ou, um escritório pode conter animais de estimação que o robô, nunca tendo visto antes, tenta lavar com sabão, levando a resultados previsivelmente ruins.

Por exemplo, no caso de nosso robô de limpeza, materiais de limpeza agressivos que ele achou úteis na limpeza de pisos de fábricas podem causar muitos danos se usados ​​para limpar um escritório, escreveram os pesquisadores. Ou, um escritório pode conter animais de estimação que o robô, nunca tendo visto antes, tenta lavar com sabão, levando a resultados previsivelmente ruins. Dito isso, um robô não pode ficar totalmente paralisado toda vez que não entende o que está acontecendo. Os robôs sempre podem perguntar aos humanos quando encontram algo inesperado, mas isso presume que eles até mesmo sabem quais perguntas fazer e que a decisão que precisam ser tomadas pode ser adiada.

É por isso que este parece ser o problema mais complicado de ensinar robôs a resolver. Programar inteligência artificial é uma coisa. Mas programar robôs para serem inteligentes sobre sua idiotice é outra coisa completamente diferente.

Filme de homem de 6 milhões de dólares