Con inteligencia artificial, Facebook ayuda a los ciegos a saber qué hay en las fotos

Twitter también desarrolla una nueva función para que las imágenes lleguen a los discapacitados visuales.

5 Abr 2016 – 07:13 AM EDT

Comparte

Angel Adorno trabaja sentado ante la computadora todo el día: transcribe entrevistas en video en una oficina del Servicio de Inmigración en Nueva York. Como es ciego, usa un programa que le lee lo que hay en la pantalla, incluidos los botones, comandos y menúes de cada aplicación. Así puede navegarlos con el teclado y ejecutar las acciones que necesite.

Facebook está bloqueado en la oficina. Pero, Angel, de 51 años, lo abre en su teléfono cuando no tiene nada que hacer.

“Chequeo a ver qué está pasando —dice—, si alguien quiere ser mi amigo, o si me mandan mensajes”.

Cuando llega a casa en Queens, entre los ladridos de sus perritos, a veces se conecta a la red social y escucha mientras el lector de pantalla le recita los mensajes de sus conexiones. “Tengo un monton de amigos... —dice—, bah, que yo creo que son amigos”.

Escribe de vez en cuando. Prefiere Facebook antes que Twitter, porque “140 letras no son muchas palabras”. Pero no postea nada muy privado en las redes. Las cosas de la familia, prefiere hablarlas por teléfono.

Podrá parecer obvio, pero cuando Angel usa redes sociales, nunca se detiene en las fotos. No le interesan, casi. No es sólo porque no las puede ver, sino que además la gente que las cuelga no suele tomarse el tiempo de describir qué hay en ellas para que alguien como él se entere.

“No las miro —dice—, porque ¿para qué?”

Esa brecha entre Angel y sus contactos se puede achicar un poco con las nuevas funciones que Facebook y Twitter acaban de desarrollar para que los usuarios ciegos o con poca visión sepan qué hay en las fotos.

Facebook lanzó este martes un servicio de reconocimiento de imágenes basado en inteligencia artificial que puede describirle una foto de forma automática a un usuario ciego.

Aunque por ahora hace descripciones un tanto generales, es un primer paso de un camino que puede ser revolucionario.

“Hoy el contenido visual está fuera del alcance de la gente que no ve”, dice Matt King, un ingeniero de Facebook que es ciego y trabajó en el desarrollo de esta función. “Este tipo de tecnología es nueva y extremadamente apasionante”.

Twitter, por su lado, acaba de abrir la posibilidad de que los usuarios agreguen una descripción detallada a cada imagen que publican. Así, los programas lectores de pantalla como el que usa Angel Adorno pueden transmitir esa información al usuario.

¿Y dónde está el botón?
Navegar internet, una tarea cotidiana y simple para miles de millones de personas, es un desafío constante si no ves.
“La gente que es ciega está en la web buscando información o intentando comprar algo y se encuentra con partes de sitios que no son accesibles”, relata el director ejecutivo del Consejo Estadounidense de Ciegos, Eric Bridges. “Por ejemplo, un sitio que no tiene (accesible) el botón ‘Comprar’: pasas por toda la experiencia de hacer una compra y luego no puedes encontrar el botón ‘Comprar’”.

“Esas cosas aún suceden hoy en día. Es una experiencia muy despareja y a veces frustrante”.

Más de un millón de personas son ciegas en Estados Unidos y 12 millones más sufren algún grado de pérdida de visión. Los hispanos y los afroamericanos son una población de alto riesgo de discapacidad visual porque son más propensos a tener enfermedades como diabetes y glaucoma.

En el mundo, hay 39 millones de ciegos y 246 millones de personas con baja visión.

Más sobre Tecnología

TECNOLOGÍA

Así es Willow, el nuevo chip de Google que resuelve en minutos lo que a una supercomputadora le tomaría billones de años

3 min de lectura

TECNOLOGÍA

Google borrará cuentas inactivas: qué debes hacer para mantener la tuya y proteger tus datos

1:50

TECNOLOGÍA

Sam Altman regresa a OpenAI pocos días después de ser despedido y con una nueva junta directiva

4 min de lectura

TECNOLOGÍA

Quién es Sam Altman, el 'gurú de la inteligencia artificial' detrás de ChatGPT

5 min de lectura

Adivinando el menú
Esa experiencia despareja de la que habla Bridges ocurre cuando quienes diseñan un sitio web no tienen presentes las necesidades técnicas de las personas con problemas de visión. El contenido digital debe tener información adicional para que los programas de lectura le puedan contar al usuario ciego qué tiene en la pantalla: ¿es un botón, es un menú desplegable, es una imagen? ¿La imagen tiene descripción? ¿Qué dice?

Lo mismo sucede en las redes sociales.

“La gente postea fotos y no las describe ni les pone textos adicionales”, cuenta Bridges, que es ciego y suele usar Facebook. “Lo único que oyes es ‘imagen’, ‘imagen’, ‘imagen’, y te quedas preguntándonte... no sabes qué son”.

“Tengo amigos que son fanáticos de la comida y publican fotos... tengo que adivinar qué es lo que van a comer o ver si alguien lo dice en los comentarios —sigue—. O lo que te queda es ser el tipo molesto que está preguntando en los comentarios: ‘¿Qué hay en la foto?’”

Mejor depender de las máquinas
La tecnología que Facebook lanzó este martes —por ahora sólo en inglés y para usuarios de dispositivos móviles Apple— da un paso hacia solucionar este problema sin depender de que los propios usuarios digan qué están comiendo.
“Si fuéramos a depender de los seres humanos para hacer esto, sería algo muy difícil de hacer”, dice Jeff Wieland, el jefe de accesibilidad en Facebook, que propuso crear este equipo en la empresa hace cinco años.

“Es un momento bastante apasionante para estar involucrado en este campo —dice—, porque hay tecnologías que realmente pueden cambiar las cosas”.

La nueva función se llama “texto alternativo automático” y ya funciona en los iPhones y iPads que tienen activada la función VoiceOver. Quienes lo usen escucharán (en inglés) frases como: “La imagen puede contener: una o más personas, sonriendo, lentes de sol, en exteriores, cielo, agua”.

Un cerebro artificial
¿Cómo puede Facebook saber qué hay en una foto?

El sistema usa una “red neuronal artificial”, un sistema de cómputo armado con una estructura similar a la del cerebro humano. Los ingenieros de inteligencia artificial de la empresa —que recibe en sus apps 2,000 millones de imágenes cada día— lo alimentan con millones de ejemplos de fotos para que aprenda a reconocer objetos.
Aun así, en su primera etapa, el servicio será bastante básico. Sólo usará entre 80 y 100 conceptos para describir las fotos, los que más aparecen en las imágenes que suben los usuarios.

Algunos son: auto, avión, bicicleta, tren, exterior, montaña, árbol, nieve, cielo, océano, playa, tenis, natación, estadio, básquetbol, helado, sushi, pizza, postre, café, lentes, bebé, barba, zapatos. Y no podía faltar, obviamente, ‘selfie’.

¿Es un bebé o un chimpancé?
La tecnología no está lista para diferenciar, por ejemplo, entre dos variedades de pizza ni para afirmar con seguridad que una persona a la que no se le ve la cara es un ser humano. Y los desarrolladores de Facebook prefieren ser conservadores para no generar desconfianza en los usuarios. Las objetos y conceptos que tendrán descripción serán aquéllos en que el sistema logre al menos 80% de certidumbre.

“Decir que un bebé es un chimpancé o que un chimpancé es un bebé es un error que no queremos cometer”, dice King.

La descripción parece limitada en esta primera etapa. Pero este ingeniero, que perdió la vista cuando era estudiante universitario, recuerda que en los ‘80 y ‘90 tenía que hackear los programas de computación para poder usarlos sin ver.

“Esto siempre empieza así, de a poco —dice—, así fue con el (reconocimiento de) texto. Pero va a crecer y a expandirse”.

También en Twitter
Twitter también dio lo que llama “un primer paso” para mejorar la accesibilidad de las imágenes que cuelgan sus usuarios.

La red social lanzó la semana pasada una función que permite a los usuarios agregar el “texto alternativo” a sus fotos en forma manual.

 
  
  Starting today, anyone can make Tweets with images accessible to the visually impaired: https://t.co/mAnehClSNR pic.twitter.com/bmCuMVWJrR 
  — Twitter (@twitter) March 29, 2016

Hombre posa con cerveza
Poder escuchar la descripción de una foto es un gran avance para un usuario con discapacidad visual, dice Bridges, del Consejo de Ciegos.

“Que tengamos la capacidad de entender lo que hay en las fotos es un excelente paso adelante”, dice.

En el futuro, se imagina, las descripciones serán cada vez más detalladas. “Podrían decir: ‘hombre de piel morena clara sostiene una botella de Sam Adams’, o incluso más detallado: ‘...sostiene una botella de Sam Adams fría de la que caen trozos de hielo’ —dice—. Tener ese tipo de información es útil. La gente (vidente) la da por sentada porque puede ver las imágenes, pero nosotros nos quedamos preguntándonos, inventándonos historias en la cabeza”.

Una palabra vale mil imágenes
En Queens, Angel Adorno dice que “algo así puede salir bueno” cuando escucha la descripción de la nueva función de Facebook, basada en inteligencia artificial. “Pero —aclara— a mí me dan miedo las computadoras que ‘se prenden solas’”.

Lo que más mejoraría su experiencia en las redes sociales... sería que más gente escribiera bien.
“Para una persona ciega, la palabra es mejor —dice—. Si alguien escribe algo bien, ahí está la foto. Si uno sabe escribir bien, hablar de las cosas, la foto se forma ahí mismo”.

Comparte

RELACIONADOS:Tecnología•Redes Sociales•Desde Silicon Valley•Empresas•