O Google lançou duas versões estáveis de seus modelos de interface de programação de aplicativos (API) Gemini 1.5 para desenvolvedores, prometendo maior desempenho e menores custos de produção de aplicativos.
O Google anunciou o lançamento de versões estáveis do Gemini 1.5 Pro (gemini-1.5-pro-002) e Gemini 1.5 Flash (gemini-1.5-flash-002). Comparados com os modelos 001 anteriores, os novos modelos Gemini prontos para produção exibiram melhorias significativas na geração de código, matemática, raciocínio e análise de vídeo.
O Google reduziu o preço de seu modelo Gemini 1.5 Pro pronto para produção em mais de 50%, ao mesmo tempo em que reivindicou limites de taxa três vezes maiores e menor latência do que os lançamentos de modelos experimentais mais antigos.
De acordo com as notas de lançamento do Google, ambos os modelos Gemini 1.5 oferecem ganhos significativos em factualidade e reduzem alucinações de modelo, acompanhamento de instruções, compreensão multilíngue em 102 idiomas, geração de SQL e compreensão de áudio e documento.
O Google reduziu os comprimentos de resumo para ambos os modelos e aconselhou os desenvolvedores de produtos baseados em chat com opções para aumentar os recursos de conversação da API.
Os preços da API Gemini 1.5 Pro em prompts com menos de 128.000 tokens foram reduzidos para 64% para tokens de entrada, 52% para tokens de saída e 64% para tokens incrementais armazenados em cache.
“Para tornar ainda mais fácil para os desenvolvedores criarem com o Gemini, estamos aumentando os limites de taxa de nível pago para 1.5 Flash para 2.000 RPM e aumentando 1.5 Pro para 1.000 RPM, de 1.000 e 360, respectivamente.”
O Google também anunciou o lançamento do Gemini 1.5 Flash-8B, uma versão experimental menor do 1.5 Flash com números de benchmark mais baixos. Esta atualização inclui aumentos significativos de desempenho em casos de uso de texto e multimodal.
Todas as versões estão disponíveis no Google AI Studio e na API Gemini.
Enquanto isso, o maior concorrente de inteligência artificial do Google, OpenAI, começou a lançar seu recurso “Advanced Voice” para usuários selecionados do ChatGPT.
O Advanced Voice Mode do ChatGPT permite uma comunicação mais rápida e intuitiva, semelhante à humana, com a IA. Como parte do novo recurso, a OpenAI revelou 5 novas vozes, Arbor, Maple, SXol, Spruce e Vale, que vêm como adições às opções de voz existentes Breeze, Juniper, Cove e Ember.