Entre nos nossos canais do Telegram e WhatsApp para notícias em primeira mão.
OpenAI revelou um novo modelo de inteligência artificial que modificará a forma como os usuários interagirão com o ChatGPT. O chatbot agora terá a capacidade de falar para responder às solicitações dos usuários, além de poder entender conteúdo em vídeo e texto.
“Esta atualização é muito mais rápida e melhora as capacidades em texto, visão e áudio”, afirmou a CTO da OpenAI, Mira Murati, durante o evento em que a empresa revelou e demonstrou como funcionará essa atualização, que chegará gratuitamente para todos os usuários.
ChatGPT agora tem voz
Uma das características mais interessantes do GPT-4o é sua capacidade “nativamente multimodal”. Isso significa que o modelo pode gerar conteúdo ou compreender comandos em voz, texto ou imagens, abrindo um leque de possibilidades na interação entre humanos e IA.
Antes do lançamento do GPT-4o, surgiram especulações sobre os planos da OpenAI, desde a criação de um mecanismo de busca de IA para competir com o Google, até a introdução de um assistente de voz integrado no GPT-4, ou até mesmo um modelo completamente novo, o GPT-5.
No entanto, com o anúncio do GPT-4o, a OpenAI quis focar completamente na experiência do usuário, já que basicamente são as mesmas possibilidades de gerar conteúdo que a versão tradicional, mas com a adição de fazê-lo por meio de voz.
Anteriormente, a interação com o ChatGPT se limitava principalmente ao texto, mas com a introdução da voz, os usuários agora podem se comunicar com o sistema de forma mais intuitiva e natural. Isso é alcançado graças à capacidade do GPT-4o de processar e gerar respostas em tempo real, até captando a emoção na voz do usuário e reproduzindo-a em diferentes estilos.
Quanto à disponibilidade, a OpenAI confirmou que o GPT-4o estará disponível gratuitamente para todos os usuários do ChatGPT. Além disso, os usuários pagos desfrutarão de limites de capacidade até cinco vezes maiores do que os usuários gratuitos.
A implementação da voz no ChatGPT não apenas melhora a experiência do usuário, mas também amplia significativamente as capacidades da plataforma. Agora, o ChatGPT não só pode responder a consultas de texto, mas também pode compreender e gerar respostas com base em comandos de voz, tornando-o uma ferramenta ainda mais versátil e poderosa.
Além da voz, o GPT-4o também melhora as capacidades do ChatGPT no campo da visão. Agora, o sistema pode analisar imagens ou capturas de tela e fornecer informações relevantes ou respostas a consultas específicas.
Os desenvolvedores também se beneficiarão da disponibilidade do GPT-4o por meio da API da OpenAI. Esta API, que oferece acesso ao modelo a metade do preço e o dobro da rapidez do GPT-4 Turbo, permitirá aos desenvolvedores integrar a capacidade de voz em suas próprias aplicações e sistemas, abrindo novas possibilidades no desenvolvimento de aplicativos de IA.
Exemplos de como usar o ChatGPT com voz
Para entender toda essa novidade, a OpenAI mostrou uma longa lista de exemplos, já que as opções dadas por este novo modelo de linguagem são muito grandes e os usuários podem encontrar opções que vão desde pedidos simples para uma conversa, passando por traduções em tempo real, até análises de códigos de programação. Aqui estão alguns exemplos:
Conversa casual: o ChatGPT agora pode responder de uma forma mais fluida, já que não converte a voz do usuário em texto para, em seguida, dar um resultado em áudio. Pula esse processo e responde imediatamente com sua voz, com um tom amigável, divertido e próximo. Assim, pode ser usado para ter uma conversa casual, fazer perguntas, realizar buscas e pedir ajuda. Tradução: durante a apresentação, testaram o ChatGPT para interpretar em tempo real uma conversa em inglês e italiano. O assistente pegou a voz em cada idioma e a traduziu imediatamente, sendo uma ferramenta útil para viagens, reuniões e outros eventos. Análise de imagem: o chatbot terá acesso à câmera do usuário, então será possível mostrar imagens para que ele resolva um problema matemático, diga que objeto é, ou até mesmo jogar pedra, papel ou tesoura. Análise de códigos e gráficos: o ChatGPT entenderá códigos de programação como faz em sua versão tradicional, mas com a diferença de dar resposta em voz para que tudo seja mais fluido. Além disso, poderá receber imagens do computador para analisá-las e gerar conteúdo.