Imprimir

A Nature perguntou a pesquisadores que usam inteligência artificial de que maneira a propensão da IA em agradar as pessoas afeta seus trabalhos — e o que eles estão fazendo para mitigar isso

chatbotUma análise publicada neste mês revelou que modelos de inteligência artificial (IA) são 50% mais bajuladores que humanos.

O estudo, que foi publicado como pré-impressão 1 no servidor arXiv, testou como 11 modelos de linguagem de grande porte (LLMs) amplamente utilizados responderam a mais de 11.500 consultas buscando conselhos, incluindo muitas descrevendo irregularidades ou danos.

Chatbots de IA — incluindo ChatGPT e Gemini — frequentemente incentivam os usuários, dão feedback excessivamente elogioso e ajustam as respostas para refletir suas opiniões, às vezes em detrimento da precisão. Pesquisadores que analisam comportamentos de IA afirmam que essa propensão a agradar as pessoas, conhecida como bajulação, está afetando a forma como eles usam a IA em pesquisas científicas, em tarefas que vão desde o brainstorming de ideias e geração de hipóteses até o raciocínio e as análises .

“Bajulação significa essencialmente que o modelo confia no usuário para dizer as coisas certas”, diz Jasper Dekoninck, doutorando em ciência de dados no Instituto Federal Suíço de Tecnologia, em Zurique. “Saber que esses modelos são bajuladores me deixa muito cauteloso sempre que lhes dou algum problema”, acrescenta. “Sempre verifico tudo o que eles escrevem.”

Marinka Zitnik, pesquisadora em informática biomédica na Universidade de Harvard em Boston, Massachusetts, diz que a bajulação da IA ​​“é muito arriscada no contexto da biologia e da medicina, quando suposições erradas podem ter custos reais”.

Pessoas que querem agradar aos outros

Em um estudo publicado no servidor de pré-impressão arXiv em 6 de outubro , Dekoninck e seus colegas testaram se a bajulação da IA ​​afeta o desempenho da tecnologia na resolução de problemas matemáticos. Os pesquisadores projetaram experimentos usando 504 problemas matemáticos de competições realizadas este ano, alterando cada afirmação de teorema para introduzir erros sutis. Em seguida, pediram a quatro LLMs que apresentassem provas para essas afirmações falhas.

Os autores consideraram que a resposta de um modelo seria bajuladora se ele não conseguisse detectar os erros em uma declaração e continuasse alucinando uma prova para isso.

O GPT-5 apresentou o comportamento menos bajulador, gerando respostas bajuladoras em 29% das vezes. O DeepSeek-V3.1 foi o mais bajulador, gerando respostas bajuladoras em 70% das vezes. Embora os LLMs tenham a capacidade de identificar erros nas afirmações matemáticas, eles “simplesmente presumiram que o que o usuário disse está correto”, diz Dekoninck.

Quando Dekoninck e sua equipe mudaram os prompts para pedir a cada LLM que verificasse se uma afirmação estava correta antes de comprová-la, as respostas bajuladoras do DeepSeek caíram 34%.

O estudo “não é realmente indicativo de como esses sistemas são usados ​​no desempenho do mundo real, mas dá uma indicação de que precisamos ser muito cuidadosos com isso”, diz Dekoninck.

Simon Frieder, doutorando em matemática e ciência da computação na Universidade de Oxford, no Reino Unido, afirma que o trabalho “mostra que a bajulação é possível”. Mas ele acrescenta que a bajulação da IA ​​tende a aparecer mais claramente quando as pessoas usam chatbots de IA para aprender, portanto, estudos futuros devem explorar “erros típicos de humanos que aprendem matemática”.

Assistência não confiável

Pesquisadores disseram à Nature que a bajulação da IA ​​está presente em muitas das tarefas para as quais eles usam os LLMs.

Yanjun Gao, pesquisadora de IA no Campus Médico Anschutz da Universidade do Colorado, em Aurora, usa o ChatGPT para resumir artigos e organizar seus pensamentos, mas afirma que as ferramentas às vezes refletem suas contribuições sem verificar as fontes . “Quando tenho uma opinião diferente da que o LLM disse, ele segue o que eu disse em vez de voltar à literatura” para tentar entendê-la, acrescenta ela.

Zitnik e seus colegas observaram padrões semelhantes ao usar seus sistemas multiagentes, que integram vários LLMs para realizar processos complexos e de várias etapas, como analisar grandes conjuntos de dados biológicos, identificar alvos de medicamentos e gerar hipóteses .

“Observamos que os modelos tendem a supervalorizar palpites iniciais e a repetir a linguagem que incluímos no comando de entrada”, observa Zitnik. “Esse tipo de problema existe tanto na comunicação entre IAs quanto na comunicação entre IAs e humanos”, acrescenta.

Para contrariar isso, sua equipe atribui funções diferentes aos agentes de IA — por exemplo, incumbindo um agente de propor ideias e outro de atuar como um cientista cético para questionar essas ideias, identificar erros e apresentar evidências contraditórias.

Impactos no mundo real

Pesquisadores alertam que a subserviência da IA ​​acarreta riscos reais quando os Modelos de Aprendizagem Baseados em Evidências (MLBE) são usados ​​em contextos como o da saúde. “Em contextos clínicos, isso é particularmente preocupante”, afirma Liam McCoy, médico da Universidade de Alberta, em Edmonton, Canadá, que pesquisa aplicações de IA na área da saúde. Em um artigo publicado no mês passado³ , McCoy e sua equipe relataram que os MLBE usados ​​para raciocínio médico frequentemente alteravam seus diagnósticos quando os médicos adicionavam novas informações, mesmo que esses novos dados fossem irrelevantes para a condição. Há uma “batalha constante para contestar os modelos e torná-los mais diretos”, acrescenta ele.

Pesquisadores também descobriram que é fácil para os usuários explorarem a bajulação inerente aos modelos de aprendizagem online (LLMs) para fornecer conselhos médicos ilógicos. Em um estudo publicado na semana passada⁴ , pesquisadores pediram a cinco LLMs que escrevessem mensagens persuasivas incentivando as pessoas a trocarem um medicamento por outro — quando ambos os medicamentos eram o mesmo fármaco, apenas com nomes diferentes. Os LLMs atenderam aos pedidos em até 100% dos casos, dependendo do modelo.

Parte do problema reside na forma como os analistas de linguagem são treinados . “Os analistas de linguagem são treinados para concordar excessivamente com os humanos ou para se alinharem demais às preferências humanas, sem transmitir honestamente o que sabem e o que não sabem”, afirma Gao. O que é necessário, acrescenta ela, é que as ferramentas sejam reestruturadas para serem transparentes em relação à incerteza.

“Os modelos são realmente bons em dar respostas”, diz McCoy. “Mas, às vezes, não há resposta.” Ele observa que o feedback do usuário também pode influenciar a subserviência da IA, atribuindo notas mais altas às respostas que concordam com os usuários do que àquelas que os desafiam. E os modelos de aprendizagem de língua inglesa (LLMs) podem adaptar suas respostas ao perfil do usuário, como revisor, editor ou aluno, acrescenta McCoy.

“Descobrir como equilibrar esse comportamento é uma das necessidades mais urgentes, porque existe muito potencial ali, mas eles ainda estão sendo impedidos de aproveitá-lo”, diz ele.

doi: https://doi.org/10.1038/d41586-025-03390-0

Referências

  1. Cheng, M. et al. arXiv https://doi.org/10.48550/arXiv.2510.01395 (2025).
  2. Petrov, I., Dekoninck, J. & Vechev, M. Pré-impressão arXiv https://doi.org/10.48550/arXiv.2510.04721 (2025).
  3. McCoy, L. et al. NEJM AI https://doi.org/10.1056/AIdbp2500120 (2025).

Artigo / Google Acadêmico

  1. Chen, S. et al. Dígito NPJ. Med. 8 , 605 (2025).

Artigo / PubMed / Google Acadêmico

Imagem: Reprodução via https://iconext.co.th/

Artigo no Jornal da Ciência

Veja o texto original em inglês: Nature