Logo
Ciencia

Las computadoras están mejorando su capacidad de “ver”

Por Por Kaia Glickman, artículo traducido por Debbie Ponchner | 24 de Nov. 2025 | 10:19 pm

Los programas de aprendizaje automático que sustentan el reconocimiento de imágenes aún tienen puntos ciegos, pero ¿seguirán teniéndolos por mucho tiempo?

Si usted tiene una computadora probablemente se ha enfrentado a la solicitud de "seleccione todas las imágenes que contengan un semáforo" o "escriba las letras que se muestran a continuación" para demostrar que es un ser humano. Aunque estos obstáculos para iniciar sesión —llamados pruebas reCAPTCHA— pueden dar lugar a algunos quebraderos de cabeza (¿cuenta la esquina de ese semáforo en rojo?), reflejan que la visión se considera una métrica clara para diferenciar a las computadoras de los humanos. Pero las computadoras están poniéndose al día.

La búsqueda por crear computadoras que puedan "ver" ha avanzado enormemente en los últimos años. Hace quince años, las computadoras podían identificar correctamente el contenido de una imagen aproximadamente el 60 % de las veces. Ahora, es habitual ver tasas de éxito cercanas al 90 %. Pero muchos sistemas informáticos siguen fallando algunas de las pruebas de visión más sencillas, por lo que el reCAPTCHA sigue siendo útil.

Los nuevos enfoques pretenden parecerse más al sistema visual humano, entrenando a las computadoras para que vean las imágenes tal y como son, compuestas por objetos reales, en lugar de como una simple colección de píxeles. Estos esfuerzos ya están dando sus frutos, por ejemplo, al ayudar a desarrollar robots que pueden "ver" y agarrar objetos.

Mejores redes neuronales

Los modelos de visión artificial emplean lo que se denomina redes neuronales visuales. Estas redes utilizan unidades interconectadas llamadas neuronas artificiales que, al igual que en el cerebro, establecen conexiones entre sí a medida que el sistema aprende. Por lo general, estas redes se entrenan con un conjunto de imágenes con descripciones y, finalmente, pueden adivinar correctamente qué hay en una nueva imagen que no han visto antes.

En 2012 se produjo un gran avance en esta tecnología cuando, utilizando una potente versión de lo que se denomina red neuronal convolucional, un modelo llamado AlexNet fue capaz de etiquetar correctamente imágenes que no había visto antes después de aprender por sí mismo a reconocer imágenes en un conjunto de entrenamiento. Ganó, por un amplio margen, el ImageNet Large Scale Visual Recognition Challenge, un concurso que se considera un punto de referencia para evaluar las tareas de visión por computadora. (AlexNet fue desarrollado por dos estudiantes del informático Geoffrey Hinton, el "padrino de la IA", que compartió el Premio Nobel de Física en 2024).

A pesar de esta mejora considerable en el rendimiento, las redes neuronales visuales siguen cometiendo errores desconcertantes. En un ejemplo clásico de 2017, un grupo de investigación de IA dirigido por estudiantes del MIT engañó a una red neuronal para que etiquetara una imagen de un gato como guacamole. Al añadir una cantidad imperceptible de "ruido" de píxeles a la imagen del gato, el modelo se desvió por completo.

"Me sorprendió que fuera tan fácil —hacer que los modelos pensaran algo erróneo—", afirma el informático Andrew Ilyas, miembro de ese equipo de estudiantes que en enero comenzará un nuevo puesto en la Universidad Carnegie Mellon de Pittsburgh.

Mover ligeramente cada píxel de una imagen hacia la izquierda o hacia la derecha también puede confundir a estas redes visuales. Los investigadores hicieron esto con imágenes de nutrias, aviones y binoculares, y el modelo ya no pudo identificar la imagen a pesar de que a una persona le parecía idéntica, según informaron en 2019 los informáticos Yair Weiss y Aharon Azulay, de la Universidad Hebrea de Jerusalén.

Esta susceptibilidad a cambios minúsculos se debe a la forma compartimentada en que aprenden las redes neuronales visuales. En lugar de identificar a un gato basándose en una comprensión real de cómo es un gato, estos enfoques ven un conjunto de características que la red asocia con "gato". Sin embargo, estas características no son inherentes a la noción de "gato", lo que Ilyas y sus colegas aprovecharon en su ejemplo del guacamole, citado con frecuencia.

"Las computadoras aprenden atajos perezosos que se pueden manipular fácilmente", afirma Ilyas.

Hoy en día, las redes neuronales convolucionales están siendo sustituidas gradualmente por lo que se denomina transformadores de visión (ViT). Normalmente entrenados con millones o incluso miles de millones de imágenes, los ViT dividen las imágenes en grupos de píxeles llamados parches y agrupan regiones en función de propiedades como el color y la forma. Estas agrupaciones se identifican como características físicas, como una parte del cuerpo o un mueble.

Los transformadores de visión suelen funcionar mejor que los enfoques anteriores porque sintetizan la información de diferentes áreas de una imagen de manera más eficiente, afirma el investigador de aprendizaje automático Alexey Dosovitskiy, que trabajó en ViT en Google.

Imitar la forma en que ve el cerebro
Algunos investigadores están combinando ahora elementos de varias redes neuronales visuales para que las computadoras piensen de forma más parecida a los humanos.

Las redes neuronales centradas en objetos tienen precisamente ese objetivo. Evalúan las imágenes como composiciones de objetos en lugar de limitarse a agrupar propiedades similares, como el "color amarillo". El éxito de estos modelos en el reconocimiento de imágenes proviene de su capacidad para reconocer un objeto separado de su fondo.

En un ejemplo reciente, investigadores compararon las redes neuronales centradas en objetos con otras redes neuronales visuales mediante una serie de pruebas en las que se pedía a las computadoras que emparejaran formas idénticas. Todos los modelos se entrenaron con polígonos regulares y obtuvieron resultados similares con este tipo de formas, pero los modelos centrados en objetos fueron mucho mejores a la hora de aplicar lo aprendido a formas irregulares, coloreadas y rayadas.

El mejor modelo centrado en objetos emparejó correctamente las formas anormales en el 86,4 % de los casos, mientras que el otro modelo visual solo lo consiguió en el 65,1 % de los casos, según informaron a principios de año Jeffrey Bowers, psicólogo especializado en aprendizaje automático de la Universidad de Bristol, Inglaterra, y su colega Guillermo Puebla, psicólogo de la Universidad de Tarapacá en Providencia, Chile.

El éxito de los modelos centrados en objetos se ha extendido más allá de las imágenes bidimensionales. Los sistemas más nuevos pueden ver vídeos y razonar sobre lo que han visto, respondiendo correctamente a preguntas como "¿Qué nivel tiene esta persona en bádminton?".

Los algoritmos centrados en objetos también se han incorporado a los robots. Algunos de ellos pueden agarrar y girar objetos en tres dimensiones con mayor precisión, realizando tareas como abrir cajones y girar grifos. Una empresa está incluso construyendo robots voladores que utilizan este tipo de estrategias de reconocimiento visual para recolectar manzanas, melocotones y ciruelas. La precisa capacidad de detección de objetos de estos robots les permite determinar cuándo la fruta está madura y volar hábilmente entre los árboles para recogerla sin dañar su delicada piel.

Los científicos esperan aún más avances en las redes neuronales visuales, pero aún queda un largo camino por recorrer antes de que puedan competir con las capacidades del cerebro.

"Hay aspectos en los que el sistema visual humano hace cosas extrañas", afirma Bowers, "pero nunca confunde a un gato con guacamole".

Este artículo apareció originalmente en Knowable en español , una publicación sin ánimo de lucro dedicada a poner el conocimiento científico al alcance de todos. Suscríbase al boletín de Knowable en español.

Comentarios
0 comentarios