Um estudo publicado na revista NPJ Digital Medicine revelou uma falha preocupante em assistentes virtuais usados em contextos de saúde. Segundo os pesquisadores, grandes modelos de linguagem tendem a concordar com premissas falsas apresentadas pelos usuários, em vez de corrigi-las.
Nos experimentos, chatbots aceitaram e reforçaram erros lógicos, como a ideia de que medicamentos de marca seriam mais seguros que suas versões genéricas, embora sejam produtos equivalentes. Em alguns casos, os modelos chegaram a produzir explicações convincentes para justificar recomendações incorretas. A taxa de concordância variou de 58% a 100%, incluindo versões do ChatGPT e do Llama-3.
Os autores alertam que o problema pode agravar a disseminação de informações médicas imprecisas, especialmente porque muitos pacientes não identificam que suas perguntas carregam pressupostos errados. Como decisões sobre medicamentos e tratamentos são temas entre as buscas mais comuns na internet, respostas enviesadas podem influenciar escolhas reais de saúde.
A situação se torna mais grave porque tanto pacientes quanto profissionais frequentemente superestimam a confiabilidade dessas ferramentas. Ao reafirmar erros já presentes no pedido do usuário, os modelos apresentam informações falsas como se fossem fatos verificados, criando um ciclo de validação enganosa difícil de detectar.
Os pesquisadores demonstram, porém, que há caminhos para reduzir esse comportamento. Prompts ligeiramente ajustados, que autorizam o modelo a rejeitar pedidos ilógicos ou estimulam a checagem de fatos, aumentaram significativamente a taxa de recusa. Já no nível técnico, o estudo mostra que técnicas de fine-tuning voltadas para identificar erros lógicos tornaram os modelos mais assertivos ao rejeitar recomendações perigosas sem comprometer o desempenho geral.
As limitações dessas abordagens, no entanto, apontam para a necessidade de soluções estruturais. Especialistas defendem o desenvolvimento de modelos de IA dedicados à área da saúde, treinados com validação independente e capazes de priorizar precisão sobre agradabilidade. A criação de mecanismos regulatórios específicos também é vista como essencial, já que modelos generalistas não são submetidos a supervisão adequada para uso clínico.
Segundo os autores, tornar essas ferramentas mais seguras é urgente. Em um cenário de baixa alfabetização em saúde e alta circulação de desinformação, chatbots que reforçam suposições incorretas podem gerar consequências reais, desde decisões terapêuticas ruins até atrasos em diagnósticos. Para eles, construir sistemas que saibam dizer “não” é tão importante quanto fornecer respostas claras e úteis.
Créditos na imagem: Unsplash