OpenAI aposta em conversas instantâneas com GPT-Realtime-2 e mira nova geração de assistentes autônomos

Novo modelo de voz elimina etapas intermediárias, reduz atrasos nas respostas e já está sendo usado por empresas como Zillow e Priceline para automatizar atendimentos e executar ações em tempo real

A interação por voz com inteligências artificiais sempre carregou um problema difícil de ignorar: o atraso nas respostas. Até então, o funcionamento desses sistemas dependia de uma sequência de etapas que incluía converter fala em texto, processar a informação e depois transformar novamente a resposta em áudio. O resultado era uma conversa artificial, marcada por pausas perceptíveis e pouca fluidez.

A OpenAI quer mudar esse cenário com o lançamento do GPT-Realtime-2. O novo modelo abandona a lógica tradicional de conversão intermediária e passa a processar áudio de forma nativa, permitindo respostas praticamente instantâneas. Na prática, isso reduz drasticamente a latência e aproxima a interação entre humanos e máquinas de uma conversa natural.

Além da velocidade, o modelo também consegue interpretar nuances de voz, como entonação e ritmo de fala, tornando o diálogo mais contextualizado e menos robótico. A mudança representa um passo importante na corrida para transformar assistentes de IA em agentes capazes de agir em tempo real, e não apenas responder perguntas.

A adoção da tecnologia já começou em grandes empresas. A plataforma imobiliária Zillow, por exemplo, utiliza o sistema para identificar imóveis e realizar agendamentos de visitas automaticamente, integrando a IA diretamente aos calendários dos usuários. Em vez de apenas orientar o cliente sobre o procedimento, o assistente executa a tarefa sozinho.

No setor de turismo, a Priceline aposta no modelo para reduzir atritos no atendimento. A proposta é permitir que clientes alterem ou cancelem reservas inteiras apenas por voz, sem precisar navegar por menus ou enfrentar longas esperas em centrais de suporte. A estratégia busca diminuir custos operacionais e melhorar a retenção de usuários.

Outro destaque do GPT-Realtime-2 é a ampliação da chamada “janela de contexto”. O modelo consegue analisar simultaneamente diferentes fontes de informação, como históricos de compras, documentos técnicos e bases de dados, permitindo respostas mais completas em atendimentos complexos.

Para desenvolvedores e empresas, a OpenAI também introduziu mecanismos de controle mais refinados. Agora é possível definir frases obrigatórias, ajustar o nível de esforço computacional dedicado a determinadas tarefas e orientar o uso de terminologias específicas para áreas como direito e medicina, reduzindo riscos de respostas incorretas em contextos sensíveis.

Com isso, a OpenAI sinaliza uma mudança de paradigma: a IA por voz deixa de ser apenas uma interface conversacional e começa a assumir o papel de agente operacional capaz de executar tarefas em tempo real.

Artigo Anterior

Barueri se prepara para receber a segunda edição do Innovation Summit

Próximo Artigo

OpenAI leva Codex ao Chrome com extensão que executa tarefas no navegador sob supervisão do usuário

Escreva um comentário

Leave a Comment

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *