La próxima frontera de la IA: los “modelos de mundo” que podrían dar a los robots imaginación y sentido común

Gigantes como Google, Meta y OpenAI compiten por una tecnología que promete máquinas capaces de prever, razonar y actuar como un ser humano.

Imagina una inteligencia artificial que no solo responda, sino que piense antes de actuar. Que anticipe qué ocurrirá si empuja una caja o si cruza la calle cuando el semáforo cambia. Esa es la ambición detrás de los llamados modelos de mundo (world models), un tipo de IA que podría transformar la robótica, la conducción autónoma y la creación digital.

Qué son los modelos de mundo

A diferencia de los modelos tradicionales —que aprenden relaciones entre entrada y salida—, los modelos de mundo construyen una representación interna del entorno, una especie de “miniuniverso” dentro de la máquina. Esa simulación le permite prever resultados sin probarlos físicamente, igual que un humano imagina antes de actuar.

El investigador David Ha lo explica con un ejemplo simple: un bateador de béisbol golpea una bola lanzada a 160 km/h en milisegundos, demasiado rápido para calcular nada de forma consciente. Acierte o falle, lo hace basándose en una predicción mental del movimiento, no en una fórmula matemática.

Por qué son el nuevo objetivo de la industria

Figuras como Yann LeCun (Meta), Demis Hassabis (DeepMind) y Yoshua Bengio coinciden en que estos modelos son el paso necesario hacia una IA realmente inteligente.

La inversión privada se ha disparado. La startup World Labs, fundada por Fei-Fei Li, recaudó 230 millones de dólares; General Intuition, de Vinod Khosla, otros 133 millones.

Cómo funcionan

Un modelo de mundo combina tres pilares técnicos:

  • Compresión sensorial: resume lo que percibe (imagen, texto, vídeo).
  • Predicción: anticipa cómo cambiará el entorno.
  • Simulación y planificación: “imagina” varios futuros posibles antes de actuar.

En esencia, la IA sueña con distintos resultados y elige el que más se ajusta a su objetivo.

Aplicaciones que ya asoman

  • Conducción autónoma: permite simular tráfico y peatones para anticipar riesgos reales.
  • Robótica industrial: los robots prueban estrategias en un entorno virtual antes de mover un solo tornillo.
  • Generación de vídeo: crea escenas físicamente coherentes —una pelota rebota, una sombra se proyecta— porque “entiende” las leyes del entorno.

Yann LeCun plantea un ejemplo revelador: si una IA ve un vídeo de una habitación desordenada y recibe la instrucción “límpiala”, un modelo de mundo podría planificar acciones lógicas —aspirar, fregar, ordenar— sin haber aprendido nunca esa secuencia exacta.

Obstáculos técnicos y éticos

Entrenar estos sistemas exige una potencia computacional descomunal: miles de GPUs y un consumo energético que multiplica el de los actuales modelos generativos. Además, aún cometen errores graves: predicciones falsas o “alucinaciones” que, en contextos como la medicina o la conducción, pueden ser críticas.

Los investigadores también advierten del riesgo de sesgos incorporados en los datos, que podrían afectar decisiones en entornos reales.

Una carrera abierta

OpenAI, DeepMind y Meta avanzan con estrategias distintas. Los primeros buscan que los modelos de mundo emerjan de forma espontánea en redes multimodales entrenadas con texto, vídeo y simulaciones 3D. LeCun, en cambio, apuesta por arquitecturas completamente nuevas, más parecidas a cómo el cerebro construye su percepción del mundo.

El siguiente salto de la inteligencia artificial

Los expertos calculan que pasarán al menos diez años antes de que un modelo de mundo plenamente funcional llegue al mercado. Pero el objetivo está claro: que las máquinas pasen de reaccionar a comprender.

Si los primeros modelos de IA aprendieron a ver, oír y hablar, los modelos de mundo aspiran a algo más profundo: imaginar. Y en ese punto, los robots dejarían de limitarse a ejecutar órdenes para empezar, por primera vez, a pensar por sí mismos.

No hay comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *