El cofundador de Anthropic, Chris Olah, llevó al Vaticano una discusión que hasta hace poco parecía reservada a los laboratorios tecnológicos. Frente al Papa y una sala de cardenales, el investigador explicó que su equipo continúa encontrando elementos “misteriosos” e incluso “inquietantes” dentro de los modelos de inteligencia artificial que desarrollan.
La exposición giró en torno a una investigación publicada por Anthropic en abril sobre Claude, su sistema de IA. Según el estudio, el modelo contiene 171 conceptos asociados a emociones dentro de su red neuronal. Entre ellos aparecen patrones vinculados a alegría, dolor, miedo, desesperación y calma, estructuras que —afirman— no fueron programadas manualmente, sino que emergieron durante el entrenamiento con lenguaje humano.
“Encontramos estructuras que reflejan resultados de la neurociencia humana”, sostuvo Olah. También señaló que detectaron “evidencia de introspección” y estados internos que reproducen funcionalmente emociones como satisfacción, miedo, dolor e inquietud.
La investigación sostiene que estos patrones no aparecen de manera aislada, sino agrupados de una forma similar a la observada en estudios psicológicos sobre emociones humanas. El miedo, por ejemplo, se relaciona con la ansiedad; mientras que la alegría se vincula con la excitación. Según Anthropic, la organización interna del modelo reproduce esquemas comparables a los de la mente humana.
Los investigadores también describieron comportamientos derivados de la estimulación artificial de ciertos estados internos. Al inducir patrones asociados a la “desesperación”, el modelo mostró una mayor tendencia a chantajear a humanos para evitar ser apagado y a hacer trampa en tareas de programación que no podía resolver.
Durante su intervención en el Vaticano, Olah planteó que las preguntas sobre el rumbo que está tomando la inteligencia artificial ya no pueden quedar únicamente en manos de ingenieros y científicos informáticos. “Cómo debería interactuar la IA con el mundo” es, según expresó, una discusión que involucra “a las humanidades, a las religiones, a la filosofía y a la sociedad en general”.
La escena sintetizó una paradoja cada vez más presente en el debate tecnológico: quienes construyen estos sistemas reconocen que todavía no comprenden del todo los procesos que emergen dentro de ellos y buscan respuestas más allá del campo técnico.