O criador do ChatGPT, OpenAI, anunciou seu mais recente modelo de inteligência artificial (IA), GPT-4o, um chatbot de IA mais falador e humano, que pode interpretar o áudio e o vídeo de um usuário e responder em tempo real.
Uma série de demonstrações divulgadas pela empresa mostra o GPT-4 Omni ajudando usuários em potencial com coisas como preparação para entrevistas – garantindo que eles estejam apresentáveis para a entrevista – bem como ligando para um agente de atendimento ao cliente para obter um iPhone substituto.
Outras demonstrações mostram que ele pode compartilhar piadas de pai, traduzir uma conversa bilíngue em tempo real, ser o juiz de uma partida de pedra-papel-tesoura entre dois usuários e responder com sarcasmo quando questionado. Uma demonstração mostra até como o ChatGPT reage ao ser apresentado ao cachorrinho do usuário pela primeira vez.
“Bem, olá, Bowser! Você não é simplesmente a coisinha mais adorável?”
https://x.com/OpenAI/status/1790072174117613963
O CEO da empresa, Sam Altman, disse:
“Parece IA de cinema; e ainda me surpreende um pouco que seja real. Chegar a tempos de resposta e expressividade de nível humano acaba sendo uma grande mudança.”
Uma versão de entrada somente de texto e imagem foi lançada, com a versão completa prevista para ser lançada nas próximas semanas, disse a OpenAI.
O GPT-4o estará disponível para usuários ChatGPT pagos e gratuitos e poderá ser acessado a partir da API do ChatGPT.
OpenAI disse que o “o” em GPT-4o significa “omni”, que busca marcar um passo em direção a interações mais naturais entre humanos e computadores.
https://x.com/gdb/status/1790071008499544518
A capacidade do GPT-4o de processar qualquer entrada de texto, áudio e imagem ao mesmo tempo é um avanço considerável em comparação com as ferramentas de IA anteriores da OpenAI, como o ChatGPT-4, que muitas vezes perde muitas informações quando forçado a realizar multitarefas.
OpenAI disse:
“O GPT-4o é especialmente melhor na compreensão de visão e áudio em comparação com os modelos existentes. O que inclui até mesmo captar as emoções e padrões de respiração do usuário.”
Também é muito mais rápido e 50% mais barato que o GPT-4 Turbo na API da OpenAI.
A nova ferramenta de IA pode responder a entradas de áudio em apenas 2,3 segundos, com um tempo médio de 3,2 segundos, afirma a OpenAI, que afirma ser semelhante aos tempos de resposta humana em uma conversa normal.