Há um novo campeão no mundo dos benchmarks de inteligência artificial generativa e seu nome é Gemini 1.5 Pro.
O campeão anterior, ChatGPT-4o da OpenAI, foi finalmente superado quando o Google lançou discretamente uma versão experimental de seu modelo mais recente.
A atualização mais recente do Gemini chegou sem alarde e atualmente é rotulada como experimental. Mas rapidamente ganhou a atenção da comunidade de IA nas mídias sociais, à medida que começaram a surgir relatos de que estava superando seus rivais em pontuações de benchmark.
O ChatGPT da OpenAI tem sido o porta-estandarte da IA generativa desde o lançamento do GPT-3. Seu modelo mais recente, GPT-4o, e seu concorrente mais próximo, Claude-3 da Anthropic, reinaram supremos acima da maioria dos outros modelos na maioria dos benchmarks comuns no último ano ou mais, com pouca concorrência.
Um dos benchmarks mais populares é chamado de LMSYS Chatbot Arena. Ele testa modelos em uma variedade de tarefas e atribui uma pontuação geral de competência. O GPT-4o recebeu uma pontuação de 1.286, enquanto o Claude-3 obteve respeitáveis 1.271.
Uma versão anterior do Gemini 1.5 Pro obteve 1.261. Mas a versão experimental (Gemini 1.5 Pro 0801) lançada em agosto obteve impressionantes 1.300.
Isso indica que ele é, no geral, mais capaz do que seus concorrentes, mas os benchmarks não são necessariamente uma representação precisa do que um modelo de IA pode ou não fazer.
Sem comparações mais profundas disponíveis, estamos entrando em uma era em que o mercado de chatbots de IA amadureceu o suficiente para oferecer várias opções. Em última análise, cabe aos usuários finais determinar qual modelo de IA funciona melhor para eles.
Anedoticamente, houve uma onda de entusiasmo sobre a versão mais recente do Gemini com usuários nas redes sociais chamando-o de “insanamente bom“.
Não está claro neste momento se a versão experimental do Gemini 1.5 Pro acabará sendo o padrão daqui para frente. Embora permaneça geralmente disponível no momento, o fato de estar no que é considerado uma fase de lançamento ou teste antecipado indica que é possível que o modelo possa ser rescindido ou alterado por razões de segurança ou alinhamento.