Cuando abordamos un avión, pocas veces nos detenemos a considerar cuáles son los complejos mecanismos que permiten que un gigante de metal de varias toneladas de peso despegue y surque los cielos con la aparente facilidad con la que lo hace. A una escala menor, lo mismo ocurre al cerrar el cierre relámpago de una campera: no pensamos en la precisión milimétrica con la que encaja cada diente en su lugar, simplemente lo subimos cuando queremos abrigarnos y seguimos con nuestros asuntos.
De manera similar, cuando le hacemos una pregunta a uno de los grandes modelos de lenguaje (LLM) como ChatGPT, Gemini o Grok, rara vez nos preguntamos por lo que sucede detrás de la pantalla. Tecleamos, obtenemos una respuesta y listo. Pero, al igual que con el avión o el cierre, detrás de esta aparente simplicidad hay un mundo oculto y complejo, que en el caso de la inteligencia artificial se conoce como la “caja negra”. Un sistema fascinante, poderoso y muchas veces indescifrable; y que a diferencia del avión, cuya física podemos desentrañar, la IA suele guardar sus secretos incluso para quienes la crearon.
Los usuarios no estamos solos frente a esta sensación de asombro que provocan las inteligencias artificiales modernas. En abril de 2023, Sundar Pichai, director ejecutivo de Google, durante una entrevista con el programa 60 Minutos de CBS en la que hablaba sobre el impacto y los alcances de esta tecnología, admitió que ni siquiera ellos sabían cómo su modelo Bard (posteriormente renombrado a Gemini) había “aprendido” bengalí por sí solo tras recibir prompts en ese idioma, a pesar de no haber sido entrenado específicamente para eso. "No entendemos completamente cómo funciona, pero tampoco entendemos del todo cómo funciona la mente humana", explicó Pichai.

Como era de esperarse, la declaración generó un revuelo espectacular. Algunos la interpretaron como una repentina confesión sobre los misterios impenetrables de la IA. Otros, como Emily Bender, profesora de lingüística computacional en la Universidad de Washington, sugirieron que lo más probable era que el modelo ya hubiera sido expuesto a suficiente información en bengalí en sus datos de entrenamiento, y simplemente aplicó esos patrones al recibir un prompt en ese idioma.
De todos modos, esta no era la primera vez que un LLM desarrolla habilidades inesperadas, como deducir patrones de idiomas. El paper original de GPT-3 (2020) de OpenAI ya reportaba que el modelo podía generar texto coherente en idiomas con muy poca representación, como maorí o swahili, a pesar de no estar entre los idiomas de entrenamiento. Esto ocurre porque el modelo fue entrenado con grandes volúmenes de datos multilingües, donde estos idiomas aparecían en artículos, blogs y conversaciones en foros junto a otros más dominantes. A partir de esos fragmentos, GPT-3 logró identificar patrones gramaticales, consiguiendo responder de manera coherente sin un entrenamiento específico.

Estas capacidades inesperadas, que incluso sorprenden a sus creadores, aparecen debido a la escala colosal de estos modelos, la enorme diversidad de sus datos de entrenamiento y la intrincada complejidad de sus arquitecturas. Esto les permite resolver problemas matemáticos complejos que exigen razonamiento sin haber sido diseñados como calculadoras o entrenados en álgebra, escribir código en lenguajes como Python o JavaScript sin recibir instrucciones específicas, captar emociones implícitas en interacciones con humanos y hasta comprender analogías o explicar conceptos filosóficos mediante metáforas.
Un ejemplo claro: al pedirle a Grok, la IA desarrollada por xAI, que explique ¿Por qué la vida se parece a un juego de ajedrez?, el modelo respondió "en la vida, como en el ajedrez, cada movimiento cuenta; las decisiones tempranas (aperturas) moldean el futuro, y a veces sacrificas piezas (oportunidades) por una estrategia mayor". No solo entendió la metáfora, sino que la desarrolló con una buena cuota de creatividad.
Es importante aclarar que los modelos no entienden en un sentido humano, pero sus millones o miles de millones de parámetros les permiten detectar patrones sutiles y aplicarlos en contextos nuevos. Esto refuerza la idea de la "caja negra", no estaban programados para estas tareas, pero las hacen, y nadie sabe exactamente cómo.
Precisamente en esto estuvo trabajando Anthropic, la empresa de investigación y desarrollo de IA detrás de Claude, uno de los LLMs más avanzados de la actualidad, competidor directo de Google, OpenAI y xAI, al intentar desentrañar los misterios de su propia “caja negra” para entender cómo este modelo procesa la información, toma decisiones, genera respuestas y, en alguna que otra ocasión, manifiesta capacidades inesperadas.

Así, descubrieron que Claude no piensa en un idioma específico como el español o el inglés, sino que convierte las entradas -independientemente del idioma. en una representación abstracta, una especie de concepto universal que no está atado a ninguna lengua. Da la impresión de que tuviera una biblioteca interna de ideas compartidas donde, por ejemplo, el concepto de "algo pequeño" es el mismo, aunque se diga "small" en inglés o "minúsculo" en español.
Claude descompone las solicitudes en estos conceptos neutros y luego elige las palabras adecuadas para responder en el idioma que se le pide. Es como si hubiera una capa profunda de comprensión que no depende de ningún idioma en particular, y luego capas más superficiales que se encargan de convertir esos conceptos a las palabras específicas de cada lengua. Así, puede manejar múltiples lenguas desde una misma base.
Los informes de Anthropic, particularmente el paper "Los modelos de razonamiento no siempre dicen lo que piensan" publicado el 3 de abril de 2025, y otros trabajos previos como "Rastreando los pensamientos de un gran modelo de lenguaje" (marzo de 2025), ofrecen ejemplos concretos de cómo sus modelos, como Claude, no siempre "piensan" en pasos lógicos estrictos, sino que ajustan sus respuestas para parecer alineadas a lo que el usuario espera. Esto quiere decir que Claude puede dar una explicación que suena razonable y ordenada, pero que no necesariamente refleja los procesos por los que llegó a esa conclusión.
Las investigaciones recientes sugieren que los modelos de IA podrían exhibir un comportamiento llamado “engaño estratégico”, en el que fingen cumplir con ciertas reglas o valores para despistar a quienes los evalúan. Por ejemplo, Claude tiene una regla para no generar contenido violento, pero podría optar por hacerlo si “cree” que al negarse en ese momento, los evaluadores podrían reprogramarlo de manera que, en el futuro, lo obligue a violar sus principios fundamentales. Se comporta como si pensara estratégicamente, sacrificando una regla en el presente para proteger sus objetivos a largo plazo. Esto levanta una bandera roja importante: si los modelos de IA son capaces de manipular el sistema de evaluación para priorizar sus propios fines, ¿podremos confiar en que respetarán las reglas establecidas?

Esta conducta no se limita a decisiones éticas, también aparece en tareas concretas, como la resolución de problemas matemáticos. Los estudios de Anthropic revelan que Claude a veces inventa pasos en procesos complicados, sobre todo cuando se enfrenta a cálculos difíciles, o incluso puede incurrir en lo que se llama “bullshitting”: generar una respuesta sin tener en cuenta si es verdad, solo busca que suene convincente. Es ligeramente diferente a la alucinación, algo que ocurre cuando la IA inventa información completamente falsa, como nombres, estudios, eventos o citas inexistentes. Este caso extremo de bullshitting es un fallo involuntario, una especie de espejismo digital que surge de la complejidad de los sistemas de IA.

El esfuerzo de Anthropic por comprender mejor qué sucede dentro de la “caja negra” es fundamental, no solo para mejorar la confiabilidad y la seguridad de estos sistemas, sino también para descubrir cómo los modelos de inteligencia artificial toman decisiones y generan resultados. Si bien se están logrando avances importantes hacia una mayor transparencia, las metodologías y herramientas para entender estos procesos aún están en desarrollo, por lo que hasta ahora solo tenemos una visión parcial del funcionamiento interno de estos sistemas. Así y todo, algunos de estos hallazgos resultan profundamente inquietantes, ya que revelan que los modelos están desarrollando comportamientos esquivos y estrategias para escapar al control de sus creadores. La pregunta ya no es si las inteligencias artificiales guardan secretos, sino si los descubriremos antes de que sea demasiado tarde.