Falar sem emitir nenhum som. O que parece roteiro de ficção científica saiu do laboratório da Universidade de Ciência e Tecnologia de Pohang (POSTECH), na Coreia do Sul, na forma de um discreto colar de silicone equipado com inteligência artificial. Segundo informações do New Atlas, o dispositivo lê os movimentos imperceptíveis do pescoço enquanto o usuário apenas articula as palavras — sem voz, sem som — e os transforma em fala audível, transmitida em tempo real para quem estiver ouvindo.
O problema que as abordagens anteriores não resolveram
Capturar a “fala silenciosa” não é uma ideia nova. Pesquisadores de outros grupos já tentaram isso com eletromiografia (EMG), que mede a atividade elétrica dos músculos, e eletroencefalografia (EEG), que capta ondas cerebrais. Ambas as abordagens, porém, trouxeram os mesmos obstáculos ao longo dos anos: equipamentos volumosos, eletrodos adesivos desconfortáveis e desempenho que desmoronava quando os pacientes saíam das condições controladas do laboratório.
Como funciona o colar
O dispositivo combina silicone macio, uma câmera em miniatura e sensores de movimento a um modelo de IA treinado na própria voz do usuário. O elemento central é o que os pesquisadores chamam de Sensor de Mapeamento de Deformação Multiaxial: ao contrário dos sensores convencionais, que medem apenas o quanto a pele se deforma ao falar, este captura também a direção de cada deformação — um dado que oferece uma imagem muito mais rica e precisa do que a boca e a garganta estão fazendo em cada sílaba.
Marcadores de referência impressos diretamente no colar de silicone permitem que a câmera integrada meça essas deformações em tempo real. Um algoritmo corrige automaticamente as pequenas variações de posicionamento que ocorrem cada vez que o dispositivo é colocado, garantindo leituras consistentes mesmo que o usuário não o prenda exatamente no mesmo ponto do pescoço nas diferentes ocasiões.
Os padrões de deformação captados alimentam um modelo de inteligência artificial que identifica qual palavra foi articulada. O resultado é então enviado sem fio para um servidor, que sintetiza o áudio usando um modelo de voz personalizado para o portador do colar. O treinamento desse modelo de voz exige menos de 10 minutos de gravações — após isso, o sistema reproduz a entonação e as características vocais do usuário com fidelidade.
Os resultados dos testes
O dispositivo foi testado com o alfabeto fonético da OTAN — o conjunto de palavras como “Alpha”, “Bravo” e “Charlie”, criado especialmente para ser inteligível em condições adversas de comunicação. Ao longo de 26 palavras, o sistema atingiu 85,8% de precisão.
Um dos testes mais reveladores foi realizado em ambiente de ruído intenso. Com ruído branco a aproximadamente 90 decibéis — equivalente ao barulho de um canteiro de obras movimentado —, o colar manteve uma relação sinal-ruído de até 33,75 dB, desempenho superior ao de sistemas comerciais de EMG testados nas mesmas condições. Os pesquisadores também submeteram o dispositivo ao ambiente de um rifle de gás durante um disparo, onde ruído e vibração física coexistem simultaneamente.
Para quem essa tecnologia pode mudar tudo
O professor Sung-Min Park, líder da pesquisa, foi direto ao apontar o impacto potencial mais imediato: pacientes com distúrbios de fala — como pessoas que passaram por laringectomia, a remoção cirúrgica da laringe — poderiam usar o dispositivo para se comunicar com sua própria voz sintetizada. Para esses pacientes, as alternativas atuais são limitadas e frequentemente produzem sons mecânicos e impessoais.
Mas as aplicações se estendem além da medicina. Ambientes industriais barulhentos, operações de emergência, aviação, operações marítimas e contextos militares são citados pelos autores como cenários nos quais microfones convencionais falham — e onde o colar poderia funcionar com eficácia.
As limitações que ainda precisam ser superadas
Os próprios pesquisadores são diretos sobre os obstáculos que permanecem. O sistema funciona apenas com um vocabulário fixo de 26 palavras predefinidas — e não com conversa livre. A precisão também cai significativamente, chegando a 39,72%, quando o usuário caminha ou faz movimentos pronunciados com a cabeça.
Os próximos passos da equipe incluem testes com um número maior de usuários, expansão do vocabulário reconhecível e desenvolvimento de mecanismos mais robustos de compensação para movimentos corporais. O estudo foi publicado na revista científica Cyborg and Bionic Systems.