FRIDA, um robô de IA, sabe pintar. Mas isso está fazendo arte?

Aug 14, 2023

Anúncio

Apoiado por

mente

Pesquisadores da Carnegie Mellon University desenvolveram um braço alimentado por IA que pode pintar um acrílico abstrato. É arte?

Por Oliver Whang

Para mais jornalismo de áudio e narrativa, baixe o New York Times Audio, um novo aplicativo iOS disponível para assinantes de notícias.

Um dia, recentemente, sobre uma mesa no laboratório de Jean Oh, no bairro de Squirrel Hill, em Pittsburgh, um braço robótico estava ocupado com uma tela. Lentamente, como se o ar fosse viscoso, ele mergulhou um pincel em uma poça de tinta cinza clara em uma paleta, girou e acariciou a tela, deixando uma marca de centímetros de comprimento em meio a um aglomerado de outras pinceladas. Depois recuou e fez uma pausa, como que para avaliar o seu trabalho.

Os traços, em sua maioria em diferentes tons de cinza, sugeriam algo abstrato – um formigueiro, talvez. Dr. Oh, chefe do Grupo de Inteligência de Robôs da Universidade Carnegie Mellon, vestido com um moletom com as palavras “Há artistas entre nós”, olhou com aprovação. Seu aluno de doutorado, Peter Schaldenbrand, estava ao lado.

O trabalho do Dr. Oh, que inclui visão robótica e tópicos de aviação autônoma, muitas vezes aborda o que é conhecido como lacuna entre simulação e realidade: como máquinas treinadas em um ambiente simulado podem agir no mundo real. Nos últimos anos, Schaldenbrand liderou um esforço para preencher a lacuna entre o simulador e o real entre programas sofisticados de geração de imagens, como o Stable Diffusion, e obras de arte físicas, como desenhos e pinturas. Isto se manifestou principalmente no projeto conhecido como FRIDA, cuja última iteração zumbia ritmicamente em um canto do laboratório. (FRIDA é um acrónimo para Framework and Robotics Initiative for Development Arts, embora os investigadores tenham escolhido o acrónimo, inspirado em Frida Kahlo, antes de decidirem o que significava.)

O processo de passar de instruções de linguagem para imagens pixeladas e pinceladas pode ser complicado, pois o robô deve levar em conta “o ruído do mundo real”, disse o Dr. Mas ela, Schaldenbrand e Jim McCann, um roboticista da Carnegie Mellon que também ajudou a desenvolver FRIDA, acreditam que vale a pena prosseguir a investigação por duas razões: poderia melhorar a interface entre humanos e máquinas, e poderia, através da arte, ajudar conectar as pessoas umas às outras.

“Esses modelos são treinados com base nos dados de todos”, disse o Dr. McCann, referindo-se aos grandes modelos de linguagem que alimentam ferramentas como ChatGPT e DALL-E. “E então ainda acho que estamos descobrindo como projetos como esse, que usam esses modelos, podem devolver valor às pessoas.”

A lacuna entre o simulador e o real oferece um problema surpreendentemente complicado para roboticistas e engenheiros de computação. Alguns sistemas de inteligência artificial podem listar os passos envolvidos na caminhada (contrair o quadríceps e flexionar as tibialas posteriores, inclinar o peso para trás e tensionar o glúteo máximo) e podem fazer uma caminhada corporal simulada em um mundo virtual. Portanto, é tentador pensar que esses sistemas poderiam facilmente fazer um corpo físico andar no mundo real.

Não tão. Na década de 1980, o cientista da computação Hans Moravec observou que a IA era boa no raciocínio complicado e na análise de grandes quantidades de dados, mas era ruim em atividades físicas simples, como pegar uma garrafa de água. Isto é conhecido como paradoxo de Moravec. (A superioridade física dos humanos pode ser explicada pela longa história evolutiva do nosso corpo; as tarefas que são simples para nós são apoiadas por milhões de anos de experimentação darwiniana.)

A pintura, que muitas vezes mistura ideias de alto conceito e ações físicas básicas, põe em relevo o paradoxo: como conseguimos capturar o absurdo da consciência humana com os movimentos de um braço?

Ferramentas de geração de imagens de IA como Midjourney, DALL-E e Stable Diffusion são treinadas alimentando redes neurais com enormes bancos de dados de imagens e descrições de texto correspondentes. O objetivo programado é modelar as relações entre os significados das palavras e as características das imagens e, em seguida, usar essas relações num “modelo de difusão” para criar imagens originais que retenham o significado de descrições específicas. (O prompt “Uma família fazendo piquenique no parque” irá gerar uma nova imagem cada vez que for usado; cada uma será compreensível como um piquenique em família no parque.)

Anterior: Conheça o Morphobot: reimaginando a busca e o resgate com membros reaproveitáveis Próximo: Rolamentos cerâmicos para robôs médicos

Enviar consulta

Enviar