Reconocimiento de gestos

El reconocimiento de gestos es un tema en informática y tecnología del lenguaje con el objetivo de interpretar los gestos humanos a través de algoritmos matemáticos . ^[1] Es una subdisciplina de la visión artificial . Los gestos pueden originarse a partir de cualquier movimiento o estado corporal, pero comúnmente se originan en la cara o la mano . Actual ^{[ ¿cuándo? ]} los enfoques en el campo incluyen el reconocimiento de emocionesdel reconocimiento de gestos faciales y manuales. Los usuarios pueden usar gestos simples para controlar o interactuar con dispositivos sin tocarlos físicamente. Se han realizado muchos enfoques utilizando cámaras y algoritmos de visión por computadora para interpretar el lenguaje de señas . Sin embargo, la identificación y el reconocimiento de la postura, la marcha, la proxémica y los comportamientos humanos también es objeto de técnicas de reconocimiento de gestos. ^[2] El reconocimiento de gestos puede verse como una forma en que las computadoras comienzan a comprender el lenguaje corporal humano , construyendo así un puente más rico entre las máquinas y los humanos que las interfaces de usuario de texto primitivas o incluso las GUI . (interfaces gráficas de usuario), que aún limitan la mayoría de las entradas al teclado y al mouse e interactúan naturalmente sin ningún dispositivo mecánico.

La literatura incluye trabajos en curso en el campo de la visión por computadora sobre la captura de gestos o poses y movimientos humanos más generales mediante cámaras conectadas a una computadora. ^[6]^[7]^[8]^[9]

Reconocimiento de gestos y computación con lápiz: la computación con lápiz reduce el impacto del hardware de un sistema y también aumenta el rango de objetos del mundo físico utilizables para el control más allá de los objetos digitales tradicionales como teclados y ratones. Tales implementaciones podrían habilitar una nueva gama de hardware que no requiere monitores. Esta idea puede conducir a la creación de una pantalla holográfica. El término reconocimiento de gestos se ha utilizado para referirse más específicamente a los símbolos de escritura a mano que no son de entrada de texto, como la entrada de tinta en una tableta gráfica , los gestos multitáctiles y el reconocimiento de gestos del mouse . Esta es la interacción de la computadora a través del dibujo de símbolos con un cursor de dispositivo señalador. ^[10]^[11]^[12] (vercomputación pluma )

En las interfaces de computadora, se distinguen dos tipos de gestos: ^[13] Consideramos gestos en línea, que también pueden considerarse manipulaciones directas como escalar y rotar. Por el contrario, los gestos fuera de línea generalmente se procesan después de que finaliza la interacción; por ejemplo, se dibuja un círculo para activar un menú contextual .

La interfaz de usuario sin contacto es un tipo emergente de tecnología en relación con el control de gestos. La interfaz de usuario sin contacto (TUI) es el proceso de controlar la computadora a través del movimiento del cuerpo y los gestos sin tocar el teclado, el mouse o la pantalla. ^{[14] La} interfaz sin contacto, además de los controles de gestos, se están volviendo muy populares, ya que brindan la capacidad de interactuar con dispositivos sin tocarlos físicamente.

Hay una serie de dispositivos que utilizan este tipo de interfaz, como teléfonos inteligentes, computadoras portátiles, juegos, televisores y equipos de música.

Un niño siendo detectado por un simple algoritmo de reconocimiento de gestos que detecta la ubicación y el movimiento de la mano

El reconocimiento de gestos generalmente se procesa en middleware , los resultados se transmiten a las aplicaciones del usuario.

Existen diferentes formas de rastrear y analizar los gestos, y en el diagrama anterior se proporciona un diseño básico. Por ejemplo, los modelos volumétricos transmiten la información necesaria requerida para un análisis elaborado; sin embargo, demuestran ser muy intensivos en términos de poder computacional y requieren más desarrollos tecnológicos para poder implementarlos en el análisis en tiempo real. Por otro lado, los modelos basados en la apariencia son más fáciles de procesar, pero generalmente carecen de la generalidad requerida para la interacción humano-computadora.

Una mano real (izquierda) se interpreta como una colección de vértices y líneas en la versión de malla 3D (derecha), y el software usa su posición relativa e interacción para inferir el gesto.

La versión esquelética (derecha) está modelando efectivamente la mano (izquierda). Tiene menos parámetros que la versión volumétrica y es más fácil de calcular, lo que lo hace adecuado para sistemas de análisis de gestos en tiempo real.

Estas imágenes binarias de silueta (izquierda) o contorno (derecha) representan una entrada típica para los algoritmos basados en la apariencia. Se comparan con diferentes plantillas de mano y si coinciden se infiere el gesto correspondiente.