Física chilena modela el ojo humano para enseñar a la IA a anticipar el movimiento

Jun 22
6 min read

La investigadora desarrolló un sistema de inteligencia artificial capaz de predecir cómo se moverán los objetos en un video antes de que ocurra, inspirándose en el mecanismo que usa la retina humana para anticipar trayectorias.

El modelo, llamado ACCLIP, superó en precisión estructural a los mejores sistemas existentes en tres pruebas internacionales, incluyendo escenas de tráfico urbano real, personas en movimiento y peatones, manteniendo predicciones coherentes hasta 40 fotogramas al futuro.

La doctora en Biología Computacional de la U. San Sebastián desarrolló el trabajo como tesis doctoral con financiamiento del Air Force Office of Scientific Research de Estados Unidos.

Un modelo de inteligencia artificial desarrollado por la física chilena Soraya Mora predice el movimiento de objetos en video con precisión de hasta casi un minuto hacia el futuro, superando en coherencia a los mejores sistemas existentes en tres pruebas de referencia internacional. El sistema que tiene como principal componente el flujo óptico, toma como referencia el mecanismo con que la retina rastrea objetos en movimiento: en lugar de procesar la escena completa, identifica puntos de interés y calcula su desplazamiento entre fotogramas.

“El flujo óptico busca puntos de interés como los bordes de un objeto y mide cuánto se movieron de una imagen a la siguiente. La retina no ve el objeto completo porque sino sería mucha información, lo que hace es detectar puntos de interés y va trazando cuál es el movimiento a través del tiempo”, explicó la investigadora postdoctoral del Centro Ciencia & Vida, de la Fundación Ciencia & Vida y la Universidad San Sebastián (FCV-USS).

Las soluciones de IA que procesan video enfrentan un límite: las arquitecturas convolucionales –redes neuronales que aprenden a reconocer patrones en imágenes pasando filtros sobre ellas, como cuando nuestro ojo detecta bordes, formas y texturas antes de identificar un objeto completo– predicen bien el movimiento en horizontes cortos, pero pierden coherencia al extender el número de fotogramas.

Los modelos recurrentes mejoran la consistencia temporal, pero tienen un alto costo computacional y presentan dificultades para adaptarse a escenarios complejos. Los métodos basados en flujo óptico existentes tampoco resolvían el problema: cada horizonte temporal requería un nuevo cálculo completo del flujo, sin garantías de estabilidad a largo plazo ni bajo costo de entrenamiento. Ninguno de esos enfoques combinaba coherencia a largo plazo con eficiencia computacional.

Los resultados son parte de la tesis doctoral de la investigadora, quien es física de la Universidad Católica de Valparaíso y originaria de Punta Arenas. El proyecto fue dirigido por los doctores Tomás Pérez-Acle y César Ravello, del Laboratorio de Inteligencia Artificial Bioinspirada del Centro Ciencia & Vida; y contó con financiamiento de un FONDECYT Exploración, la USS y el Air Force Office of Scientific Research de Estados Unidos.

Tres modelos, tres niveles cerebrales

Para identificar dónde incorporar el flujo óptico dentro de la arquitectura de la red neuronal, la Dra. Mora construyó tres modelos distintos, cada uno inspirado en un nivel diferente de la jerarquía del sistema nervioso visual. El primero, Pre-Encoder (PE), integra el flujo como dato de entrada, equivalente a procesarlo en la retina. El segundo, Post-Latent Space (PLS), intentó calcularlo en la representación interna comprimida de la red. El tercero, ACCLIP, lo incorporó como regulador del aprendizaje en la etapa de integración de señales, un nivel similar a la corteza de asociación cerebral.

La lógica detrás de probar los tres caminos fue sistemática: si el lugar donde se introduce la información de movimiento determina la calidad de la predicción, era necesario comparar los tres niveles en igualdad de condiciones. “Fui moviendo el flujo óptico a distintos niveles análogos al sistema nervioso –primero análogo a la retina del ojo, después en la corteza visual, después en la corteza de asociación– para ver cuál generaba mejores predicciones. El que mejor funcionó fue ACCLIP”, relató la investigadora.

El modelo PLS calculó el movimiento dentro de la representación interna comprimida de la red, una especie de resumen visual para procesar la imagen. El problema es que al comprimir, se pierde detalle: los bordes de los objetos se difuminan y los desplazamientos pequeños desaparecen. Sin esa información, el sistema no pudo aprender a predecir nada estable.

El modelo PE sí funcionó, pero solo en el corto plazo. Cuando la predicción supera los tres fotogramas, el sistema pierde coherencia: la información de movimiento que recibe como dato de entrada no es suficiente para sostener la trayectoria a lo largo del tiempo. Su error de desplazamiento llegó a 3,2 píxeles por fotograma, equivalente a perder de vista un objeto que se mueve apenas unos milímetros en pantalla.

ACCLIP resolvió ese límite con una lógica diferente: en lugar de recibir instrucciones sobre cómo se mueven los objetos, el sistema aprende siendo penalizado cada vez que sus predicciones ignoran el movimiento. No es que tenga más información; es que aprende a prestarle atención. Con ese mecanismo, redujo el error a 1,4 píxeles y 1,1° de desviación angular, menos de la mitad que el modelo PE, resumió la especialista.

Precisión de movimiento, pérdida de forma

ACCLIP no procesa el video como una cámara convencional: en lugar de analizar cada fotograma completo, combina tres tipos de información simultáneamente. Primero, la dirección y velocidad con que se mueven los objetos. Segundo, los cambios de brillo entre un fotograma y el siguiente, que cambian cuando los objetos generan sombras al desplazarse. Tercero, que la forma del objeto se mantenga reconocible a lo largo de la secuencia. Esa combinación es lo que le permite sostener predicciones coherentes sin necesitar grandes volúmenes de datos de entrenamiento, a diferencia de los modelos más usados en el campo.

Los resultados confirman las mediciones. En videos de personas en movimiento, ACCLIP alcanzó un índice de similitud estructural de 0,967 en predicciones cortas y de 0,974 en predicciones largas, superando a los tres modelos de referencia del campo y secuencias peatonales. Su ventaja fue superior a medida que la predicción se aleja en el tiempo.

El sistema tiene, sin embargo, un límite claro: predice bien el movimiento, pero pierde fidelidad en la forma del objeto cuando la secuencia se extiende. La causa principal son las sombras. El flujo óptico funciona detectando puntos de interés en la imagen, tales como bordes, contornos; en zonas oscuras esos puntos desaparecen y el sistema queda sin información. Las manchas que genera ese vacío crecen fotograma a fotograma y distorsionan la figura predicha. En escenas de tráfico urbano, el modelo mantiene calidad aceptable hasta los 18 fotogramas; después, la imagen se degrada de forma visible.

Ese es el problema técnico central que Mora planea resolver en la siguiente etapa de sus exploraciones. "Si logro mejorar cómo calculo el flujo óptico en zonas oscuras, la predicción va a ser exacta tanto en movimiento como en imagen, en horizontes largos", afirma. El segundo obstáculo es el costo computacional: el hardware necesario para ejecutar el modelo es todavía considerable, lo que limita su uso fuera de entornos de laboratorio y es condición para llegar a predicción en tiempo real.

Del laboratorio al vehículo autónomo

Los sistemas de visión robótica actuales detectan objetos en tiempo real, pero no anticipan trayectorias. Cuando un objeto se desplaza a alta velocidad, el margen de reacción puede ser insuficiente. La predicción anticipatoria de movimiento cubriría ese intervalo, reduciendo el rango de error en dispositivos que operan en entornos dinámicos de alta velocidad.

La conducción autónoma es la aplicación más inmediata, pero el principio se extiende a cualquier dispositivo que se desplace de forma independiente: drones, robots industriales o sistemas de vigilancia móvil. Todos enfrentan el mismo problema: la necesidad de proyectar el movimiento de lo que tienen delante para tomar decisiones con margen de tiempo.

En el laboratorio ya existe un prototipo que materializa esa proyección. El equipo trabaja en integrar el modelo en un robot arácnido diseñado por el ingeniero Leonardo Campos, también integrante del grupo. “Tenemos un robot araña en el laboratorio. Estamos integrando el modelo para que cuando se desplace pueda esquivar objetos anticipando sus movimientos futuros”, relata la graduada del programa de Doctorado en Biología Computacional de la USS.

A largo plazo, el equipo contempla aplicar el mismo principio a enjambres de drones que coordinen el desplazamiento grupal mediante la predicción individual del movimiento de sus pares. Antes de llegar ahí, el modelo debe reducir sus requerimientos de procesamiento y resolver el problema de las sombras; dos condiciones técnicas que marcan la distancia entre el prototipo actual y una implementación real.

La Dra. Soraya Mora sitúa el trabajo en el registro de la ciencia básica –la generación de bases que otros investigadores y desarrolladores podrán trasladar a aplicaciones– y articula su visión a futuro en términos evolutivos: mientras más cercano sea el robot a cómo funciona la biología, más capaz será de operar en entornos reales.

Texto por Luis Francisco Sandoval, Agencia S&M Comunicaciones.