Google detecta el lenguaje de signos en las videollamadas

Ante el auge de la utilización de las videollamadas, empresas como Google se han preocupado de mejorar la experiencia para personas con discapacidad auditiva.

La llamada “nueva normalidad” derivada por la pandemia provocada por el coronavirus, con sus restricciones de movilidad y de reunión, no nos afecta a todos en la misma medida. Un ejemplo de ello, lo encontramos en las reuniones por videoconferencia. Las personas con problemas de audición que deben comunicarse a través de estos encuentros virtuales se topan con una dificultad evidente: tal y como están diseñados, los programas de videollamada no les detectan cuando desean intervenir. Cuando está seleccionada la opción “vista orador”, estas aplicaciones dan prioridad al interviniente que toma la palabra, ya que el micrófono de su dispositivo detecta el sonido de su voz. Pero, ¿qué ocurre con quien utiliza el lenguaje de signos?

Para ellos, un equipo de desarrolladores de Google Research ha creado una tecnología llamada “PoseNet”, capaz de ejecutar en tiempo real estimaciones de poses de manos y brazos realizadas por el usuario. De esta manera, el sistema atiende por igual a quien habla a través de la voz o con gestos. Las dos patas sobre las que se apoya esta solución de Google son, por un lado, la detección instantánea del lenguaje de signos y, por otro, una arquitectura sencilla y ligera que no afecte al rendimiento del sistema.

Para lograr este último objetivo, el buscador reduce la carga de trabajo para la CPU durante la entrada de vídeo en alta definición (HD) y la convierte en una lectura de puntos de referencia que toma en consideración todas las partes del cuerpo que puede utilizar una persona para comunicarse: ojos, nariz, boca, hombros, brazos, manos… De este modo, y gracias a la lectura instantánea del movimiento, el usuario que utiliza lenguaje de signos es considerado como un orador activo sin necesidad de que el anfitrión de la videollamada intervenga. Además, el sistema se adapta a cualquier individuo, ya que detecta el tamaño del usuario por la distancia entre sus hombros.

Google permite la detección instantánea del lenguaje de signos y una arquitectura sencilla y ligera que no afecte al rendimiento del sistema.

PoseNet se presentó en la Conferencia Europea sobre Visión por Computador 2020 (ECCV). A través de vídeos demo, se explicaba cómo los ingenieros de Google han empleado una arquitectura tecnológica que detecta el flujo óptico de una persona, es decir, el patrón de movimiento entre un objeto y el sujeto. Así, el sistema sabe en qué fotogramas hay movimiento y los procesa de manera automática durante toda la intervención del participante.

Para lograr el objetivo final del proyecto, que la aplicación destaque como orador a alguien que no está usando la voz, había que proyectar por sonido esos movimientos. El reto fue superado con un intérprete que utiliza un tono de audio ultrasónico a través de un cable de audio virtual, detectable por cualquier plataforma de videollamadas. Ese audio se transmite a una frecuencia de 20 KHz, por encima de los niveles normales de audición humana, con objeto de “engañar al sistema” y hacerle creer que es una persona quien habla y no una máquina que ha interpretado sus movimientos.

Con esta propuesta, Google amplía su oferta tecnológica de servicios relacionados con la accesibilidad, como el TalkBack, un teclado braille para usuarios con visión limitada, Google Lens que permite pasar textos directamente desde una hoja de papel a ordenador con una imagen, o la identificación de números desconocidos.

Blog ÓN

Comité de contenidos