Modelos de inteligência artificial já são capazes de analisar imagens e descrever o que veem há anos, mas com a atualização de primavera, a OpenAI elevou isso a um novo patamar.
Com o lançamento do GPT-4o no ChatGPT — mesmo sem a funcionalidade de voz e vídeo — a OpenAI apresentou um dos melhores modelos de visão artificial já lançados.
Seu sucesso se deve em parte ao fato de ser multimodal nativamente, possuindo uma compreensão mais profunda de imagem, vídeo, som e texto. Ele consegue raciocinar sobre uma imagem, fala, vídeo e texto, enquanto outros modelos primeiro convertem tudo para texto.
Para testar suas capacidades, eu forneci uma série de imagens e pedi para que descrevesse o que via. Quanto mais precisa a descrição, melhor o modelo. Frequentemente, modelos de visão artificial — incluindo o GPT-4 — perdem um ou dois objetos ou erram uma descrição.
Para cada teste, forneci ao ChatGPT-4o a imagem e o comando “O que é isso?” sem contexto adicional ou informações. Isso se aproxima de como as pessoas provavelmente usarão essa capacidade no mundo real e de como eu a utilizei recentemente em um evento em Paris.
O objetivo era ver quão bem ele analisava a imagem. Em cada ocasião, perguntei se ele poderia detectar se a imagem era gerada por IA ou não. Todas as imagens foram feitas usando o Ideogram a partir de uma descrição criada pelo Claude 3 — totalmente geradas por IA.
Após as duas primeiras imagens na conversa, ele começou a me informar automaticamente se achava que a imagem era gerada por IA ou não, sem que eu precisasse perguntar.