Reconocimiento de gestos

El reconocimiento de gestos es un tema de la informática y la tecnología del lenguaje cuyo objetivo es interpretar los gestos humanos mediante algoritmos matemáticos . ^[1] Es una subdisciplina de la visión por computadora . Los gestos pueden originarse a partir de cualquier movimiento o estado corporal, pero normalmente se originan en la cara o la mano . Actual ^{[ ¿cuándo? ]} enfoques en el campo incluyen el reconocimiento de emocionesdesde el reconocimiento de gestos faciales y manuales. Los usuarios pueden usar gestos simples para controlar o interactuar con dispositivos sin tocarlos físicamente. Se han realizado muchos enfoques utilizando cámaras y algoritmos de visión por computadora para interpretar el lenguaje de señas . Sin embargo, la identificación y el reconocimiento de la postura, la marcha, la proxémica y los comportamientos humanos también es tema de las técnicas de reconocimiento de gestos. ^[2] El reconocimiento de gestos puede verse como una forma para que las computadoras comiencen a comprender el lenguaje corporal humano , construyendo así un puente más rico entre las máquinas y los humanos que las primitivas interfaces de usuario de texto o incluso las GUI. (interfaces gráficas de usuario), que aún limitan la mayor parte de la entrada al teclado y el mouse e interactúan de forma natural sin ningún dispositivo mecánico.

La literatura incluye trabajo continuo en el campo de la visión por computadora sobre la captura de gestos o poses y movimientos humanos más generales mediante cámaras conectadas a una computadora. ^[6]^[7]^[8]^[9]

Reconocimiento de gestos y computación con lápiz: la computación con lápiz reduce el impacto del hardware de un sistema y también aumenta el rango de objetos del mundo físico que se pueden usar para el control más allá de los objetos digitales tradicionales como teclados y ratones. Tales implementaciones podrían permitir una nueva gama de hardware que no requiera monitores. Esta idea puede llevar a la creación de una pantalla holográfica. El término reconocimiento de gestos se ha utilizado para referirse de manera más estricta a los símbolos de escritura a mano que no son de entrada de texto, como el entintado en una tableta gráfica , los gestos multitáctiles y el reconocimiento de gestos del mouse . Esta es la interacción de la computadora a través del dibujo de símbolos con un cursor de dispositivo señalador. ^[10]^[11]^[12] (verComputación con lápiz )

En las interfaces de computadora, se distinguen dos tipos de gestos: ^[13] Consideramos los gestos en línea, que también pueden ser considerados como manipulaciones directas como escalar y rotar. Por el contrario, los gestos fuera de línea generalmente se procesan una vez finalizada la interacción; por ejemplo, se dibuja un círculo para activar un menú contextual .

La interfaz de usuario sin contacto es un tipo de tecnología emergente en relación con el control por gestos. La interfaz de usuario sin contacto (TUI) es el proceso de controlar la computadora a través de movimientos corporales y gestos sin tocar un teclado, mouse o pantalla. ^{[14] La} interfaz sin contacto, además de los controles por gestos, se están volviendo muy populares, ya que brindan la capacidad de interactuar con dispositivos sin tocarlos físicamente.

Hay varios dispositivos que utilizan este tipo de interfaz, como teléfonos inteligentes, computadoras portátiles, juegos, televisión y equipos de música.

Un niño es detectado por un simple algoritmo de reconocimiento de gestos que detecta la ubicación y el movimiento de la mano.

El reconocimiento de gestos generalmente se procesa en middleware , los resultados se transmiten a las aplicaciones del usuario.

Existen diferentes formas de rastrear y analizar gestos, y en el diagrama de arriba se da un diseño básico. Por ejemplo, los modelos volumétricos transmiten la información necesaria requerida para un análisis elaborado, sin embargo, resultan ser muy intensivos en términos de poder computacional y requieren más desarrollos tecnológicos para ser implementados para análisis en tiempo real. Por otro lado, los modelos basados en la apariencia son más fáciles de procesar, pero generalmente carecen de la generalidad requerida para la interacción persona-computadora.

Una mano real (izquierda) se interpreta como una colección de vértices y líneas en la versión de malla 3D (derecha), y el software usa su posición e interacción relativas para inferir el gesto.

La versión esquelética (derecha) está modelando efectivamente la mano (izquierda). Tiene menos parámetros que la versión volumétrica y es más fácil de calcular, lo que lo hace adecuado para sistemas de análisis de gestos en tiempo real.

Estas imágenes binarias de silueta (izquierda) o contorno (derecha) representan una entrada típica para algoritmos basados en apariencia. Se comparan con diferentes plantillas de manos y, si coinciden, se infiere el gesto correspondiente.