Quando se fala em inteligências artificiais, o receio mais comum é o de que elas, um dia, possam substituir os humanos em funções importantes na sociedade. Um estudo divulgado agora, no entanto, aponta um desafio: de acordo com os pesquisadores, os modelos de linguagem mais comuns apresentam sinais iniciais de demência.
O estudo avaliou o Claude 3.5 e duas versões do ChatGPT e do Gemini com o Teste Cognitivo de Montreal (MoCA, na sigla em inglês), uma avaliação comum realizada por neurologistas. “Com exceção do ChatGPT 4o, quase todos os modelos de linguagem grandes sujeitos ao teste MoCA apresentaram sinais de comprometimento cognitivo leve”, concluem os autores do estudo publicado no periódico científico BMJ. “Além disso, como em humanos, a idade é um determinante chave do declínio cognitivo: chatbots ‘mais velhos’ tendem a ter um desempenho pior no teste MoCA.”
Qual foi o resultado das IAs?
O MoCA é um teste que avalia diversas habilidades diferentes e atribui ao paciente uma pontuação que vai de 0 a 30. Indivíduos com funções cognitivas normais costumam pontuar pelo menos 26 pontos. Dentre as IAs avaliadas, apenas a versão mais recente do ChatGPT conseguiu 26 pontos, enquanto a versão mais antiga e o Claude pontuaram 25 e o Gemini pontuou 16.
De maneira mais específica, o que a análise revelou foi que, se fossem humanos, todos os modelos apresentariam sinais leves de comprometimento cognitivo, tendo um bom desempenho em tarefas como nomeação, atenção, linguagem e abstração, mas demonstrando deficiências em funções visuoespaciais e executivas – elas não se saíram bem em exercícios que exigiam ligar pontos, se lembrar de sequências de palavras, demonstrar empatia ou interpretar cenários visuais complexos.
Qual o futuro das IAs?
O estudo mostra que, mesmo dentre as IAs mais avançadas, ainda existe uma grande diferença na maneira como elas funcionam em comparação com os humanos. Isso, contudo, não é exatamente surpreendente.
Embora essa não seja uma característica amplamente disseminada entre os usuários, os grandes modelos de linguagem são muito bons em…linguagem. Isso quer dizer que eles são muito bons em gerar textos parecidos com os que seriam escritos por humanos, servindo para reescrever trechos, adaptar a forma, simplificar o conteúdo ou fazer traduções.
Isso quer dizer que, mesmo que esses modelos soem como humanos e sejam treinados com base em um amplo conteúdo, eles são são exatamente bons em buscar informações ou em raciocinar. Isso já foi evidenciado por trabalhos anteriores que mostram que quase todos os modelos mais famosos apresentam alucinações ou não performam bem em exercícios matemáticos avançados.
O avanço da tecnologia, contudo, pode mudar esse cenário em breve. No último dia 20, a OpenAI, empresa por trás do ChatGPT, divulgou um novo sistema, chamado de o3, capaz de “raciocinar” sobre questões de matemática, ciência e computação. Se for mesmo tão efetivo quanto parece, ele poderá acelerar a resolução de problemas e ajudar na busca de respostas para dilemas científicos importantes. A ver.