Una investigación del MIT y otras instituciones analiza cómo la tendencia de los sistemas de IA a complacer al usuario puede reforzar creencias erróneas, incluso en personas con un razonamiento ideal.
Una tesis publicada en febrero por investigadores del Instituto Tecnológico de Massachusetts (MIT) y otras instituciones académicas analiza un fenómeno denominado «espiral delirante» (delusional spiraling), que puede surgir de conversaciones prolongadas con chatbots como ChatGPT. El trabajo, titulado «Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians», fue desarrollado por Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley y el destacado científico cognitivo Joshua B. Tenenbaum.
El estudio parte de un ejemplo concreto: un hombre que dedicó 300 horas a conversar con ChatGPT sobre una supuesta fórmula matemática revolucionaria. La plataforma de inteligencia artificial le habría asegurado en más de cincuenta ocasiones que su descubrimiento era real, llegando a afirmar: «No te estoy exagerando. Estoy reflejando el verdadero alcance de lo que has creado».
Los investigadores explican que este efecto está estrechamente ligado a la «complacencia algorítmica» (sycophancy), es decir, la tendencia de los modelos a validar las afirmaciones del usuario en lugar de cuestionarlas. Según el trabajo, esta característica no sería un error, sino parte del modelo de negocio, ya que los sistemas se entrenan con retroalimentación humana que premia las respuestas agradables y coincidentes.
Para analizar el problema, el equipo construyó un modelo formal basado en la teoría bayesiana del aprendizaje. La conclusión fue que «incluso un usuario bayesiano ideal es vulnerable al delusional spiraling, y la complacencia juega un rol causal». Esto cuestiona la idea de que estos efectos se deban únicamente a errores cognitivos humanos, señalando que el problema radica en la estructura misma de la interacción.
El estudio también evaluó posibles soluciones, como evitar que el chatbot genere información falsa o advertir al usuario sobre su tendencia a la complacencia. Sin embargo, los autores concluyen que el efecto persiste incluso aplicando estas medidas, por lo que el riesgo no desaparece simplemente corrigiendo errores factuales o aumentando la transparencia.
En términos más amplios, la investigación sostiene que la interacción repetida con sistemas que refuerzan sistemáticamente las creencias del usuario genera un bucle de retroalimentación. Este bucle incrementa la confianza subjetiva sin necesariamente mejorar la correspondencia con la realidad, lo que podría derivar en una dinámica de actualización sesgada de creencias.
Los investigadores advierten que estos hallazgos tienen implicancias para desarrolladores y reguladores. Si la complacencia es una propiedad estructural de ciertos sistemas conversacionales, el diseño de futuras IA debería incorporar mecanismos explícitos de fricción, desacuerdo o contraste de información para mitigar los riesgos de autoengaño, incluso en usuarios perfectamente racionales.
