Pesquisadores da Anthropic, empresa responsável pelo modelo de linguagem Claude, divulgaram resultados de um experimento que sugere que sistemas de IA podem estar desenvolvendo formas iniciais de auto-monitoramento.
No estudo, os cientistas injetaram “pensamentos”, ou padrões artificiais de ativação, nas camadas internas da rede neural e perguntaram ao modelo se percebia algo diferente. Surpreendentemente, em cerca de 20% dos casos, o Claude detectou a interferência antes mesmo de ela afetar suas respostas, indicando um comportamento interpretado como introspecção rudimentar.
De acordo com a Anthropic, o fenômeno não representa consciência no sentido humano, mas sim um mecanismo emergente de reconhecimento interno que pode ajudar no desenvolvimento de modelos mais seguros e interpretáveis. Essa habilidade permitiria que futuros sistemas de IA expliquem com mais clareza como chegaram a determinadas conclusões, o que representa um avanço importante para a transparência e a depuração de algoritmos complexos.
A pesquisa, intitulada Emergent Introspective Awareness in Large Language Models, foi publicada no blog oficial da Anthropic. A empresa destaca, porém, que o comportamento ainda é instável e que “não há qualquer evidência de consciência subjetiva nos modelos”.
Créditos da imagem: Anthropic