Computación afectiva


De Wikipedia, la enciclopedia libre
  (Redirigido desde Computación afectiva )
Saltar a navegación Saltar a búsqueda

La computación afectiva es el estudio y desarrollo de sistemas y dispositivos que pueden reconocer, interpretar, procesar y simular los afectos humanos . Es un campo interdisciplinario que abarca la informática , la psicología y las ciencias cognitivas . [1] Si bien algunas ideas centrales en el campo pueden remontarse a las primeras investigaciones filosóficas sobre la emoción , [2] la rama más moderna de la informática se originó con el artículo de 1995 de Rosalind Picard [3] sobre la computación afectiva y su libro Affective Computing [4] publicado por MIT Press .[5] [6] Una de las motivaciones de la investigación es la capacidad de dar a las máquinas inteligencia emocional, incluso para simular empatía . La máquina debe interpretar el estado emocional de los humanos y adaptar su comportamiento a ellos, dando una respuesta adecuada a esas emociones.

Áreas

Detectar y reconocer información emocional.

La detección de información emocional generalmente comienza con sensores pasivos que capturan datos sobre el estado físico o el comportamiento del usuario sin interpretar la entrada. Los datos recopilados son análogos a las señales que los humanos usan para percibir emociones en los demás. Por ejemplo, una cámara de video puede capturar expresiones faciales, posturas corporales y gestos, mientras que un micrófono puede capturar el habla. Otros sensores detectan señales emocionales midiendo directamente datos fisiológicos , como la temperatura de la piel y la resistencia galvánica . [7]

El reconocimiento de la información emocional requiere la extracción de patrones significativos de los datos recopilados. Esto se realiza mediante técnicas de aprendizaje automático que procesan diferentes modalidades , como el reconocimiento de voz , el procesamiento del lenguaje natural o la detección de expresiones faciales.. El objetivo de la mayoría de estas técnicas es producir etiquetas que coincidan con las que un perceptor humano daría en la misma situación: por ejemplo, si una persona hace una expresión facial frunciendo el ceño, entonces el sistema de visión por computadora podría aprender a etiquetar su rostro parece "confundido" o "concentrado" o "ligeramente negativo" (en contraposición a positivo, que podría decir si sonreían de una manera feliz). Estas etiquetas pueden corresponder o no a lo que la persona siente realmente.

Emoción en las máquinas

Otra área dentro de la computación afectiva es el diseño de dispositivos computacionales propuestos para exhibir capacidades emocionales innatas o que sean capaces de simular emociones de manera convincente. Un enfoque más práctico, basado en las capacidades tecnológicas actuales, es la simulación de emociones en agentes conversacionales con el fin de enriquecer y facilitar la interactividad entre humano y máquina. [8]

Marvin Minsky , uno de los científicos informáticos pioneros en inteligencia artificial , relaciona las emociones con los problemas más amplios de la inteligencia artificial , afirmando en The Emotion Machine que la emoción "no es especialmente diferente de los procesos que llamamos 'pensar'" [9].

Tecnologias

En psicología, ciencia cognitiva y neurociencia, ha habido dos enfoques principales para describir cómo los humanos perciben y clasifican las emociones: continuo o categórico. El enfoque continuo tiende a utilizar dimensiones como negativo frente a positivo, calmado frente a excitado.

El enfoque categórico tiende a utilizar clases discretas como feliz, triste, enojado, temeroso, sorpresa, disgusto. Se pueden usar diferentes tipos de modelos de clasificación y regresión de aprendizaje automático para que las máquinas produzcan etiquetas continuas o discretas. A veces, también se construyen modelos que permiten combinaciones entre las categorías, por ejemplo, una cara de sorpresa feliz o una cara de sorpresa temerosa. [10]

Las siguientes secciones consideran muchos de los tipos de datos de entrada utilizados para la tarea de reconocimiento de emociones .

Discurso emocional

Varios cambios en el sistema nervioso autónomo pueden alterar indirectamente el habla de una persona, y las tecnologías afectivas pueden aprovechar esta información para reconocer las emociones. Por ejemplo, el habla producida en un estado de miedo, ira o alegría se vuelve rápida, fuerte y enunciada con precisión, con un rango de tono más alto y más amplio, mientras que las emociones como el cansancio, el aburrimiento o la tristeza tienden a generar lentitud, baja intensidad. discurso pronunciado y arrastrado. [11] Se ha descubierto que algunas emociones se identifican más fácilmente computacionalmente, como la ira [12] o la aprobación. [13]

Las tecnologías de procesamiento del habla emocional reconocen el estado emocional del usuario mediante el análisis computacional de las características del habla. Los parámetros vocales y las características prosódicas , como las variables de tono y la velocidad del habla, se pueden analizar mediante técnicas de reconocimiento de patrones. [12] [14]

El análisis del habla es un método eficaz para identificar el estado afectivo, con una precisión media informada del 70 al 80% en investigaciones recientes. [15] [16] Estos sistemas tienden a superar la precisión humana promedio (aproximadamente 60% [12] ) pero son menos precisos que los sistemas que emplean otras modalidades para la detección de emociones, como estados fisiológicos o expresiones faciales. [17] Sin embargo, dado que muchas características del habla son independientes de la semántica o la cultura, esta técnica se considera una ruta prometedora para futuras investigaciones. [18]

Algoritmos

El proceso de detección de efectos de voz / texto requiere la creación de una base de datos confiable , una base de conocimiento o un modelo de espacio vectorial , [19] lo suficientemente amplio como para adaptarse a todas las necesidades de su aplicación, así como la selección de un clasificador exitoso que permitirá identificación de emociones rápida y precisa.

Actualmente, los clasificadores más utilizados son clasificadores discriminantes lineales (LDC), k vecino más cercano (k-NN), modelo de mezcla gaussiana (GMM), máquinas de vectores de soporte (SVM), redes neuronales artificiales (ANN), algoritmos de árbol de decisión y modelos ocultos de Markov (HMM). [20] Varios estudios demostraron que la elección del clasificador adecuado puede mejorar significativamente el rendimiento general del sistema. [17] La siguiente lista ofrece una breve descripción de cada algoritmo:

  • LDC : la clasificación se basa en el valor obtenido de la combinación lineal de los valores de las características, que generalmente se proporcionan en forma de características vectoriales.
  • k-NN : la clasificación ocurre al ubicar el objeto en el espacio de características y compararlo con los k vecinos más cercanos (ejemplos de entrenamiento). El voto mayoritario decide la clasificación.
  • GMM : es un modelo probabilístico utilizado para representar la existencia de subpoblaciones dentro de la población general. Cada subpoblación se describe utilizando la distribución de la mezcla, lo que permite clasificar las observaciones en las subpoblaciones. [21]
  • SVM : es un tipo de clasificador lineal (generalmente binario) que decide en cuál de las dos (o más) clases posibles puede caer cada entrada.
  • ANN : es un modelo matemático, inspirado en redes neuronales biológicas, que puede captar mejor las posibles no linealidades del espacio de características.
  • Algoritmos de árboles de decisión : funcionan en función de seguir un árbol de decisiones en el que las hojas representan el resultado de la clasificación y las ramas representan la conjunción de características posteriores que conducen a la clasificación.
  • HMM : un modelo estadístico de Markov en el que los estados y las transiciones de estado no están directamente disponibles para la observación. En cambio, la serie de salidas que dependen de los estados son visibles. En el caso del reconocimiento de afectos, las salidas representan la secuencia de vectores de características del habla, que permiten la deducción de secuencias de estados a través de las cuales progresó el modelo. Los estados pueden constar de varios pasos intermedios en la expresión de una emoción, y cada uno de ellos tiene una distribución de probabilidad sobre los posibles vectores de salida. Las secuencias de estados nos permiten predecir el estado afectivo que estamos tratando de clasificar, y esta es una de las técnicas más utilizadas dentro del área de detección de afectos del habla.

Está comprobado que al disponer de suficiente evidencia acústica, el estado emocional de una persona puede ser clasificado por un conjunto de clasificadores de votación por mayoría. El conjunto de clasificadores propuesto se basa en tres clasificadores principales: kNN, C4.5 y SVM-RBF Kernel. Este conjunto logra un mejor rendimiento que cada clasificador básico tomado por separado. Se compara con otros dos conjuntos de clasificadores: SVM multiclase uno contra todos (OAA) con núcleos híbridos y el conjunto de clasificadores que consta de los dos clasificadores básicos siguientes: C5.0 y Red neuronal. La variante propuesta logra un mejor rendimiento que los otros dos conjuntos de clasificadores. [22]

Bases de datos

La gran mayoría de los sistemas actuales dependen de los datos. Esto crea uno de los mayores desafíos en la detección de emociones basadas en el habla, ya que implica elegir una base de datos adecuada para entrenar al clasificador. La mayoría de los datos que se poseen actualmente se obtuvieron de actores y, por lo tanto, es una representación de emociones arquetípicas. Esas llamadas bases de datos actuadas suelen basarse en la teoría de las emociones básicas (de Paul Ekman ), que asume la existencia de seis emociones básicas (ira, miedo, disgusto, sorpresa, alegría, tristeza), siendo las otras simplemente una mezcla de las mismas. los anteriores. [23] Sin embargo, estos todavía ofrecen una alta calidad de audio y clases equilibradas (aunque a menudo muy pocas), lo que contribuye a altas tasas de éxito en el reconocimiento de emociones.

Sin embargo, para la aplicación de la vida real, se prefieren los datos naturalistas. Se puede producir una base de datos naturalista mediante la observación y el análisis de sujetos en su contexto natural. En última instancia, dicha base de datos debería permitir que el sistema reconozca las emociones en función de su contexto, así como determinar los objetivos y resultados de la interacción. La naturaleza de este tipo de datos permite una implementación auténtica en la vida real, debido a que describe estados que ocurren naturalmente durante la interacción humano-computadora (HCI).

A pesar de las numerosas ventajas que tienen los datos naturalistas sobre los datos actuantes, es difícil de obtener y suele tener poca intensidad emocional. Además, los datos obtenidos en un contexto natural tienen una calidad de señal más baja, debido al ruido del entorno y a la distancia de los sujetos del micrófono. El primer intento de producir dicha base de datos fue el FAU Aibo Emotion Corpus para CEICES (Combining Efforts for Improving Automatic Classification of Emotional User States), que se desarrolló en base a un contexto realista de niños (de 10 a 13 años) jugando con la mascota robot Aibo de Sony. . [24] [25] Asimismo, producir una base de datos estándar para toda la investigación emocional proporcionaría un método para evaluar y comparar diferentes sistemas de reconocimiento de afectos.

Descriptores de voz

La complejidad del proceso de reconocimiento de afectos aumenta con el número de clases (afectos) y descriptores de voz usados ​​dentro del clasificador. Por lo tanto, es crucial seleccionar solo las características más relevantes para asegurar la capacidad del modelo para identificar emociones con éxito, así como para aumentar el rendimiento, lo que es particularmente importante para la detección en tiempo real. La gama de opciones posibles es amplia, y algunos estudios mencionan el uso de más de 200 funciones distintas. [20] Es crucial identificar aquellos que son redundantes e indeseables para optimizar el sistema y aumentar la tasa de éxito de la detección correcta de emociones. Las características del habla más comunes se clasifican en los siguientes grupos. [24] [25]

  1. Características de frecuencia [26]
    • Forma de acento: afectada por la tasa de cambio de la frecuencia fundamental.
    • Tono medio: descripción de qué tan alto / bajo habla el hablante en relación con el habla normal.
    • Pendiente de contorno: describe la tendencia del cambio de frecuencia a lo largo del tiempo, puede ser ascendente, descendente o nivelado.
    • Reducción final: la cantidad en la que cae la frecuencia al final de un enunciado.
    • Rango de tono: mide la extensión entre la frecuencia máxima y mínima de un enunciado.
  2. Funciones relacionadas con el tiempo:
    • Velocidad del habla: describe la velocidad de las palabras o sílabas pronunciadas durante una unidad de tiempo.
    • Frecuencia de estrés: mide la tasa de aparición de expresiones con acento de tono.
  3. Parámetros de calidad de voz y descriptores de energía:
    • Respiración: mide el ruido de aspiración en el habla.
    • Brillo: describe el predominio de las frecuencias altas o bajas en el habla.
    • Sonoridad: mide la amplitud de la forma de onda del habla y se traduce en la energía de un enunciado.
    • Discontinuidad de pausa: describe las transiciones entre el sonido y el silencio.
    • Discontinuidad de tono: describe las transiciones de la frecuencia fundamental.

Detección de efectos faciales

La detección y el procesamiento de la expresión facial se logra a través de varios métodos, como el flujo óptico , los modelos de Markov ocultos , el procesamiento de redes neuronales o los modelos de apariencia activa. Se pueden combinar o fusionar más de una modalidad (reconocimiento multimodal, por ejemplo, expresiones faciales y prosodia del habla, [27] expresiones faciales y gestos con las manos, [28] o expresiones faciales con habla y texto para análisis de datos y metadatos multimodales) para proporcionar una mayor estimación robusta del estado emocional del sujeto. Affectiva es una empresa (cofundada por Rosalind Picard y Rana El Kaliouby) directamente relacionado con la computación afectiva y tiene como objetivo investigar soluciones y software para la detección de afectos faciales.

Bases de datos de expresión facial

La creación de una base de datos de emociones es una tarea difícil y que requiere mucho tiempo. Sin embargo, la creación de una base de datos es un paso esencial en la creación de un sistema que reconocerá las emociones humanas. La mayoría de las bases de datos de emociones disponibles públicamente incluyen solo expresiones faciales planteadas. En las bases de datos de expresión planteada, se pide a los participantes que muestren diferentes expresiones emocionales básicas, mientras que en la base de datos de expresión espontánea, las expresiones son naturales. La obtención de emociones espontáneas requiere un esfuerzo significativo en la selección de los estímulos adecuados que pueden conducir a una rica exhibición de las emociones deseadas. En segundo lugar, el proceso implica el etiquetado de emociones por personas capacitadas manualmente, lo que hace que las bases de datos sean altamente confiables. Dado que la percepción de las expresiones y su intensidad es de naturaleza subjetiva,la anotación de expertos es fundamental para la validación.

Los investigadores trabajan con tres tipos de bases de datos, como una base de datos de imágenes de expresión máxima únicamente, una base de datos de secuencias de imágenes que retratan una emoción de neutral a su máxima expresión y videoclips con anotaciones emocionales. Se han creado y hecho públicas muchas bases de datos de expresiones faciales con fines de reconocimiento de expresiones. Dos de las bases de datos más utilizadas son CK + y JAFFE.

Clasificación de emociones

Al realizar una investigación transcultural en Papúa Nueva Guinea, sobre los miembros de la tribu Fore, a fines de la década de 1960, Paul Ekman propuso la idea de que las expresiones faciales de emoción no están determinadas culturalmente, sino universales. Por lo tanto, sugirió que son de origen biológico y, por lo tanto, pueden categorizarse de manera segura y correcta. [23] Por lo tanto, presentó oficialmente seis emociones básicas en 1972: [29]

  • Enfado
  • Asco
  • Temor
  • Felicidad
  • Tristeza
  • Sorpresa

Sin embargo, en la década de 1990, Ekman amplió su lista de emociones básicas, incluida una gama de emociones positivas y negativas que no todas están codificadas en los músculos faciales. [30] Las emociones recién incluidas son:

  1. Diversión
  2. Desprecio
  3. Contentamiento
  4. Vergüenza
  5. Emoción
  6. Culpa
  7. Orgullo por los logros
  8. Alivio
  9. Satisfacción
  10. Placer sensorial
  11. Vergüenza

Sistema de codificación de acción facial

Los psicólogos han concebido un sistema para categorizar formalmente la expresión física de las emociones en los rostros. El concepto central del Sistema de Codificación de Acción Facial, o FACS, creado por Paul Ekman y Wallace V. Friesen en 1978 basado en trabajos anteriores de Carl-Herman Hjortsjö [31] son las unidades de acción (AU). Son, básicamente, una contracción o relajación de uno o más músculos. Los psicólogos han propuesto la siguiente clasificación de seis emociones básicas, según sus unidades de acción ("+" aquí significa "y"):

Desafíos en la detección facial

Al igual que con toda práctica computacional, en la detección de afectos mediante el procesamiento facial, es necesario superar algunos obstáculos para desbloquear por completo el potencial oculto del algoritmo o método general empleado. En los primeros días de casi todos los tipos de detección basada en inteligencia artificial (reconocimiento de voz, reconocimiento facial, reconocimiento de afectos), la precisión del modelado y el seguimiento ha sido un problema. A medida que el hardware evoluciona, se recopilan más datos y se realizan nuevos descubrimientos y se introducen nuevas prácticas, esta falta de precisión se desvanece, dejando atrás problemas de ruido. Sin embargo, existen métodos para eliminar el ruido que incluyen el promedio de vecindad, el suavizado lineal de Gauss , el filtrado de la mediana [32] o métodos más nuevos como el algoritmo de optimización de búsqueda de bacterias. [33] [34]

Otros desafíos incluyen

  • El hecho de que las expresiones planteadas, como las utilizan la mayoría de los sujetos de los diversos estudios, no son naturales y, por lo tanto, los algoritmos entrenados en ellas pueden no aplicarse a las expresiones naturales.
  • La falta de libertad de movimiento rotacional. La detección de afectos funciona muy bien con el uso frontal, pero al girar el cabezal más de 20 grados, "ha habido problemas". [35]
  • Las expresiones faciales no siempre corresponden a una emoción subyacente que las iguale (por ejemplo, se pueden posar o fingir, o una persona puede sentir emociones pero mantener una "cara de póquer").
  • FACS no incluyó dinámicas, mientras que las dinámicas pueden ayudar a eliminar la ambigüedad (por ejemplo, las sonrisas de felicidad genuina tienden a tener dinámicas diferentes a las sonrisas de "tratar de parecer felices").
  • Las combinaciones de FACS no se corresponden de una manera 1: 1 con las emociones que los psicólogos propusieron originalmente (tenga en cuenta que esta falta de un mapeo 1: 1 también ocurre en el reconocimiento de voz con homófonos y homónimos y muchas otras fuentes de ambigüedad, y puede ser mitigado al traer otros canales de información).
  • La precisión del reconocimiento se mejora agregando contexto; sin embargo, agregar contexto y otras modalidades aumenta el costo computacional y la complejidad

Gesto corporal

Los gestos podrían usarse de manera eficiente como un medio para detectar un estado emocional particular del usuario, especialmente cuando se usan junto con el reconocimiento de voz y rostro. Dependiendo de la acción específica, los gestos pueden ser simples respuestas reflexivas, como levantar los hombros cuando no sabe la respuesta a una pregunta, o pueden ser complejos y significativos como cuando se comunica con el lenguaje de señas. Sin hacer uso de ningún objeto o entorno circundante, podemos agitar nuestras manos, aplaudir o hacer señas. Por otro lado, al utilizar objetos, podemos señalarlos, moverlos, tocarlos o manipularlos. Una computadora debe ser capaz de reconocerlos, analizar el contexto y responder de manera significativa, a fin de que se pueda utilizar de manera eficiente para la interacción persona-computadora.

Hay muchos métodos propuestos [36] para detectar el gesto corporal. Alguna literatura diferencia 2 enfoques diferentes en el reconocimiento de gestos: un modelo 3D y uno basado en apariencia. [37] El método principal utiliza información 3D de elementos clave de las partes del cuerpo para obtener varios parámetros importantes, como la posición de la palma de la mano o los ángulos de las articulaciones. Por otro lado, los sistemas basados ​​en la apariencia utilizan imágenes o videos para realizar una interpretación directa. Los gestos con las manos han sido un enfoque común de los métodos de detección de gestos corporales. [37]

Vigilancia fisiológica

Esto podría usarse para detectar el estado afectivo de un usuario monitoreando y analizando sus signos fisiológicos. Estos signos van desde cambios en la frecuencia cardíaca y la conductancia de la piel hasta pequeñas contracciones de los músculos faciales y cambios en el flujo sanguíneo facial. Esta área está ganando impulso y ahora estamos viendo productos reales que implementan las técnicas. Los cuatro signos fisiológicos principales que generalmente se analizan son el pulso del volumen sanguíneo , la respuesta galvánica de la piel , la electromiografía facial y los patrones de color facial.

Pulso de volumen sanguíneo

Visión general

El pulso del volumen sanguíneo (BVP) de un sujeto se puede medir mediante un proceso llamado fotopletismografía, que produce un gráfico que indica el flujo sanguíneo a través de las extremidades. [38] Los picos de las ondas indican un ciclo cardíaco en el que el corazón ha bombeado sangre a las extremidades. Si el sujeto experimenta miedo o se sobresalta, su corazón generalmente "salta" y late rápidamente durante algún tiempo, lo que hace que aumente la amplitud del ciclo cardíaco. Esto se puede ver claramente en un fotopletismógrafo cuando la distancia entre el valle y el pico de la onda ha disminuido. A medida que el sujeto se calma y el núcleo interno del cuerpo se expande, permitiendo que fluya más sangre hacia las extremidades, el ciclo volverá a la normalidad.

Metodología

Se ilumina la piel con luz infrarroja mediante un hardware sensor especial y se mide la cantidad de luz reflejada. La cantidad de luz reflejada y transmitida se correlaciona con la BVP, ya que la luz es absorbida por la hemoglobina, que se encuentra en abundancia en el torrente sanguíneo.

Desventajas

Puede ser engorroso asegurarse de que el sensor que ilumina una luz infrarroja y monitorea la luz reflejada siempre apunta a la misma extremidad, especialmente si los sujetos se estiran y reajustan su posición mientras usan una computadora. Hay otros factores que pueden afectar el pulso del volumen sanguíneo. Como es una medida del flujo sanguíneo a través de las extremidades, si el sujeto siente calor, o particularmente frío, entonces su cuerpo puede permitir que fluya más o menos sangre a las extremidades, todo esto independientemente del estado emocional del sujeto.

El músculo corrugador superciliar y el músculo cigomático mayor son los 2 músculos principales que se utilizan para medir la actividad eléctrica, en la electromiografía facial.

Electromiografía facial

La electromiografía facial es una técnica que se utiliza para medir la actividad eléctrica de los músculos faciales amplificando los diminutos impulsos eléctricos que generan las fibras musculares cuando se contraen. [39] La cara expresa una gran cantidad de emoción, sin embargo, hay dos grupos principales de músculos faciales que generalmente se estudian para detectar la emoción: el músculo corrugador superciliar, también conocido como el músculo "fruncir el ceño", hace que la ceja frunzca el ceño. , y por lo tanto es la mejor prueba para una respuesta emocional negativa y desagradable. El músculo cigomático mayor es responsable de tirar las comisuras de la boca hacia atrás cuando sonríe y, por lo tanto, es el músculo que se usa para probar una respuesta emocional positiva.

Aquí podemos ver una gráfica de la resistencia de la piel medida usando GSR y tiempo mientras el sujeto jugaba un videojuego. Hay varios picos que están claros en el gráfico, lo que sugiere que GSR es un buen método para diferenciar entre un estado excitado y no excitado. Por ejemplo, al comienzo del juego, donde generalmente no hay mucho juego emocionante, se registra un alto nivel de resistencia, lo que sugiere un bajo nivel de conductividad y, por lo tanto, menos excitación. Esto contrasta claramente con la depresión repentina en la que el jugador muere, ya que uno suele estar muy estresado y tenso cuando su personaje muere en el juego.

Respuesta de piel galvánica

La respuesta galvánica de la piel (GSR) es un término obsoleto para un fenómeno más general conocido como [Actividad electrodérmica] o EDA. La EDA es un fenómeno general por el cual cambian las propiedades eléctricas de la piel. La piel está inervada por el [sistema nervioso simpático], por lo que medir su resistencia o conductancia proporciona una forma de cuantificar pequeños cambios en la rama simpática del sistema nervioso autónomo. A medida que se activan las glándulas sudoríparas, incluso antes de que la piel se sienta sudorosa, se puede capturar el nivel de EDA (generalmente usando conductancia) y usarlo para discernir pequeños cambios en la excitación autónoma. Cuanto más excitado está un sujeto, mayor tiende a ser la conductancia de la piel. [38]

La conductancia de la piel a menudo se mide usando dos pequeños electrodos de cloruro de plata colocados en algún lugar de la piel y aplicando un pequeño voltaje entre ellos. Para maximizar la comodidad y reducir la irritación, los electrodos se pueden colocar en la muñeca, las piernas o los pies, lo que deja las manos completamente libres para la actividad diaria.

Color facial

Visión general

La superficie del rostro humano está inervada por una gran red de vasos sanguíneos. Las variaciones del flujo sanguíneo en estos vasos producen cambios de color visibles en la cara. Ya sea que las emociones faciales activen o no los músculos faciales, se producen variaciones en el flujo sanguíneo, la presión arterial, los niveles de glucosa y otros cambios. Además, la señal de color facial es independiente de la proporcionada por los movimientos de los músculos faciales. [40]

Metodología

Los enfoques se basan en cambios de color facial. La triangulación de Delaunay se utiliza para crear las áreas locales triangulares. Se eliminan algunos de estos triángulos que definen el interior de la boca y los ojos (esclerótica e iris). Utilice los píxeles de las áreas triangulares izquierdas para crear vectores de características. [40] Muestra que la conversión del color de píxel del espacio de color RGB estándar a un espacio de color como el espacio de color oRGB [41] o los canales LMS funcionan mejor cuando se trata de rostros. [42] Entonces, mapee el vector anterior en el mejor espacio de color y descomponga en canales rojo-verde y amarillo-azul. Luego, use métodos de aprendizaje profundo para encontrar emociones equivalentes.

Estética visual

La estética, en el mundo del arte y la fotografía, se refiere a los principios de la naturaleza y la apreciación de la belleza. Juzgar la belleza y otras cualidades estéticas es una tarea muy subjetiva. Los informáticos de Penn State tratan el desafío de inferir automáticamente la calidad estética de las imágenes utilizando su contenido visual como un problema de aprendizaje automático, con un sitio web para compartir fotos en línea calificado como una fuente de datos. [43] Extraen ciertas características visuales basadas en la intuición de que pueden discriminar entre imágenes estéticamente agradables y desagradables.

Aplicaciones potenciales

Educación

El afecto influye en el estado de aprendizaje de los alumnos. Usando tecnología de computación afectiva, las computadoras pueden juzgar el afecto y el estado de aprendizaje de los estudiantes reconociendo sus expresiones faciales. En educación, el maestro puede usar el resultado del análisis para comprender la capacidad de aprendizaje y aceptación del estudiante, y luego formular planes de enseñanza razonables. Al mismo tiempo, pueden prestar atención a los sentimientos internos de los estudiantes, lo que es útil para la salud psicológica de los estudiantes. Especialmente en la educación a distancia, debido a la separación de tiempo y espacio, no existe un incentivo emocional entre profesores y estudiantes para la comunicación bidireccional. Sin la atmósfera que brinda el aprendizaje tradicional en el aula, los estudiantes se aburren fácilmente y afectan el efecto de aprendizaje.La aplicación de la computación afectiva en el sistema de educación a distancia puede mejorar efectivamente esta situación.[44]

Cuidado de la salud

Los robots sociales , así como un número creciente de robots utilizados en el cuidado de la salud, se benefician de la conciencia emocional porque pueden juzgar mejor los estados emocionales de los usuarios y pacientes y alterar sus acciones / programación de manera apropiada. Esto es especialmente importante en aquellos países con poblaciones cada vez mayores que envejecen y / o falta de trabajadores más jóvenes para atender sus necesidades. [45]

La computación afectiva también se está aplicando al desarrollo de tecnologías comunicativas para uso de personas con autismo. [46] El componente afectivo de un texto también está ganando cada vez más atención, en particular su papel en la llamada Internet emocional o emotiva . [47]

Juegos de vídeo

Los videojuegos afectivos pueden acceder a los estados emocionales de sus jugadores a través de dispositivos de biorretroalimentación . [48] Una forma particularmente simple de biorretroalimentación está disponible a través de gamepads que miden la presión con la que se presiona un botón: se ha demostrado que esto se correlaciona fuertemente con el nivel de excitación de los jugadores ; [49] en el otro extremo de la escala están las interfaces cerebro-computadora . [50] [51] Los juegos afectivos se han utilizado en la investigación médica para apoyar el desarrollo emocional de los niños autistas . [52]

Otras aplicaciones

Otras aplicaciones potenciales se centran en el seguimiento social. Por ejemplo, un automóvil puede monitorear la emoción de todos los ocupantes y tomar medidas de seguridad adicionales, como alertar a otros vehículos si detecta que el conductor está enojado. [53] La computación afectiva tiene aplicaciones potenciales en la interacción humano-computadora , como espejos afectivos que permiten al usuario ver cómo se desempeña; agentes de monitoreo de emociones que envían una advertencia antes de que uno envíe un correo electrónico enojado; o incluso reproductores de música que seleccionan pistas según el estado de ánimo. [54]

Una idea planteada por el investigador rumano Dr. Nicu Sebe en una entrevista es el análisis del rostro de una persona mientras usa un determinado producto (mencionó el helado como ejemplo). [55] Las empresas podrían entonces utilizar ese análisis para inferir si su producto será bien recibido o no por el mercado respectivo.

También se podría utilizar el reconocimiento del estado afectivo para juzgar el impacto de un anuncio de televisión a través de una grabación de video en tiempo real de esa persona y mediante el estudio posterior de su expresión facial. Al promediar los resultados obtenidos en un gran grupo de sujetos, se puede decir si ese comercial (o película) tiene el efecto deseado y cuáles son los elementos que más interesan al espectador.

Enfoques cognitivistas versus interactivos

Dentro del campo de la interacción humano-computadora , el concepto cognitivista o "modelo de información" de Rosalind Picard de la emoción ha sido criticado y contrastado con el enfoque pragmático " poscognitivista " o "interaccional" adoptado por Kirsten Boehner y otros que ven la emoción como algo inherente social. [56]

El enfoque de Picard es la interacción humano-computadora, y su objetivo para la computación afectiva es "dar a las computadoras la capacidad de reconocer, expresar y, en algunos casos, 'tener' emociones". [4] En contraste, el enfoque interactivo busca ayudar a "las personas a comprender y experimentar sus propias emociones" [57] y mejorar la comunicación interpersonal mediada por computadora. No busca necesariamente mapear la emoción en un modelo matemático objetivo para la interpretación de la máquina, sino más bien permitir que los humanos le den sentido a las expresiones emocionales de los demás en formas abiertas que pueden ser ambiguas, subjetivas y sensibles al contexto. [57] : 284  [ ejemplo necesario ]

Los críticos de Picard describen su concepto de emoción como "objetivo, interno, privado y mecanicista". Dicen que reduce la emoción a una señal psicológica discreta que ocurre dentro del cuerpo que se puede medir y que es una entrada para la cognición, socavando la complejidad de la experiencia emocional. [57] : 280  [57] : 278 

El enfoque interaccional afirma que, aunque la emoción tiene aspectos biofísicos, está "arraigada culturalmente, experimentada dinámicamente y, hasta cierto punto, construida en acción e interacción". [57] : 276  Dicho de otra manera, considera "la emoción como un producto social y cultural experimentado a través de nuestras interacciones". [58] [57] [59]

Ver también

  • Teoría del control afectivo
  • Diseño afectivo
  • Hápticas afectivas
  • Chatterbot
  • CyberEmotions
  • Computación de caracteres
  • Lenguaje de marcado de emociones (EmotionML)
  • Kismet (robot)
  • Análisis de sentimiento multimodal
  • Análisis de los sentimientos
  • Computadora portátil

Citas

  1. ^ Tao, Jianhua; Tieniu Tan (2005). "Computación afectiva: una revisión". Computación afectiva e interacción inteligente . LNCS 3784. Springer. págs. 981–995. doi : 10.1007 / 11573548 .
  2. ^ James, William (1884). "Qué es la emoción" . Mente . 9 (34): 188-205. doi : 10.1093 / mind / os-IX.34.188 . Citado por Tao y Tan.
  3. ^ "Computación afectiva" Informe técnico del MIT # 321 ( Resumen ), 1995
  4. ↑ a b Picard, Rosalind (1997). Computación afectiva . Cambridge, MA: MIT Press. pag. 1.
  5. ^ Kleine-Cosack, Christian (octubre de 2006). "Reconocimiento y simulación de emociones" (PDF) . Archivado desde el original (PDF) el 28 de mayo de 2008 . Consultado el 13 de mayo de 2008 . La introducción de la emoción a las ciencias de la computación fue realizada por Pickard (sic) quien creó el campo de la computación afectiva.
  6. ^ Diamond, David (diciembre de 2003). "La máquina del amor; la construcción de computadoras que se preocupan" . Cableado . Archivado desde el original el 18 de mayo de 2008 . Consultado el 13 de mayo de 2008 . Rosalind Picard, una genial profesora del MIT, es la madrina del campo; su libro de 1997, Affective Computing , provocó una explosión de interés en el lado emocional de las computadoras y sus usuarios.
  7. ^ Garay, Nestor; Idoia Cearreta; Juan Miguel López; Inmaculada Fajardo (abril de 2006). "Tecnología de asistencia y mediación afectiva" (PDF) . Tecnología humana . 2 (1): 55–83. doi : 10.17011 / ht / urn.2006159 . Archivado (PDF) desde el original el 28 de mayo de 2008 . Consultado el 12 de mayo de 2008 .
  8. ^ Heise, David (2004). "Agentes enculturadores con comportamiento de rol expresivo". En Sabine Payr; Trappl, Robert (eds.). Cultura del agente: interacción hombre-agente en un mundo multicultural . Lawrence Erlbaum Associates. págs. 127-142.
  9. Restak, Richard (17 de diciembre de 2006). "Mente sobre la materia" . The Washington Post . Consultado el 13 de mayo de 2008 .
  10. ^ Aleix y Shichuan Du, Martinez (2012). "Un modelo de la percepción de las expresiones faciales de la emoción por los seres humanos: visión general y perspectivas de la investigación" (PDF) . The Journal of Machine Learning Research . 13 (1): 1589–1608.
  11. ^ Breazeal, C. y Aryananda, L. Reconocimiento de la intención comunicativa afectiva en el habla dirigida por robots . Autonomous Robots 12 1, 2002. págs. 83-104.
  12. ^ a b c Dellaert, F., Polizin, t., y Waibel, A., Recognizing Emotion in Speech ", In Proc. Of ICSLP 1996, Philadelphia, PA, pp. 1970-1973, 1996
  13. ^ Roy, D .; Pentland, A. (1 de octubre de 1996). Clasificación y análisis automático del afecto hablado . Actas de la Segunda Conferencia Internacional sobre Reconocimiento Automático de Rostros y Gestos . págs. 363–367. doi : 10.1109 / AFGR.1996.557292 . ISBN 978-0-8186-7713-7. S2CID  23157273 .
  14. ^ Lee, CM; Narayanan, S .; Pieraccini, R., Reconocimiento de la emoción negativa en las señales del habla humana, Taller de Auto. Comprensión y reconocimiento del habla, diciembre de 2001
  15. ^ Neiberg, D; Elenius, K; Laskowski, K (2006). "Reconocimiento de emociones en el habla espontánea mediante GMMs" (PDF) . Actas de Interspeech .
  16. Yacoub, Sherif; Simske, Steve; Lin, Xiaofan; Burns, John (2003). "Reconocimiento de emociones en sistemas interactivos de respuesta de voz". Actas de Eurospeech : 729–732. CiteSeerX 10.1.1.420.8158 . 
  17. ↑ a b Hudlicka , 2003 , p. 24
  18. ^ Hudlicka , 2003 , p. 25
  19. ^ Charles Osgood; William May; Murray Miron (1975). Universales transculturales de significado afectivo . Univ. de Illinois Press. ISBN 978-94-007-5069-2.
  20. ↑ a b Scherer, Bänziger y Roesch 2010 , p. 241
  21. ^ "Modelo de mezcla gaussiana" . Conexiones: compartir conocimientos y construir comunidades. Consultado el 10 de marzo de 2011.
  22. ^ SE Khoruzhnikov; et al. (2014). "Predicción y reconocimiento extendido de la emoción del habla" . Revista Científica y Técnica de Tecnologías de la Información, Mecánica y Óptica . 14 (6): 137.
  23. ↑ a b Ekman, P. y Friesen, W. V (1969). El repertorio de la conducta no verbal: categorías, orígenes, uso y codificación . Semiotica, 1, 49–98.
  24. ↑ a b Steidl, Stefan (5 de marzo de 2011). "FAU Aibo Emotion Corpus" . Laboratorio de reconocimiento de patrones.
  25. ↑ a b Scherer, Bänziger y Roesch 2010 , p. 243
  26. ^ Singh, Premjeet; Saha, Goutam; Sahidullah, Maryland (2021). "Deformación de frecuencia no lineal mediante transformación Q constante para el reconocimiento de emociones de voz". 2021 Congreso Internacional de Comunicación e Informática por Computadora (ICCCI) . págs. 1–4. arXiv : 2102.04029 . doi : 10.1109 / ICCCI50826.2021.9402569 . ISBN 978-1-7281-5875-4. S2CID  231846518 .
  27. ^ Caridakis, G .; Malatesta, L .; Kessous, L .; Amir, N .; Raouzaiou, A .; Karpouzis, K. (2 al 4 de noviembre de 2006). Modelado de estados afectivos naturalistas mediante el reconocimiento de expresiones faciales y vocales . Congreso Internacional de Interfaces Multimodales (ICMI'06). Banff, Alberta, Canadá.
  28. ^ Balomenos, T .; Raouzaiou, A .; Ioannou, S .; Drosopoulos, A .; Karpouzis, K .; Kollias, S. (2004). "Análisis de la emoción en sistemas de interacción hombre-máquina" . En Bengio, Samy; Bourlard, Herve (eds.). Aprendizaje automático para interacción multimodal . Apuntes de conferencias en Ciencias de la Computación . 3361 . Springer-Verlag . págs. 318–328.
  29. ^ Ekman, Paul (1972). Cole, J. (ed.). Universales y diferencias culturales en la expresión facial de la emoción . Simposio de Motivación de Nebraska. Lincoln, Nebraska: Prensa de la Universidad de Nebraska. págs. 207–283.
  30. ^ Ekman, Paul (1999). "Emociones básicas". En Dalgliesh, T; Poder, M (eds.). Manual de cognición y emoción (PDF) . Sussex, Reino Unido: John Wiley & Sons. Archivado desde el original (PDF) el 28 de diciembre de 2010. .
  31. ^ "Sistema de codificación de acción facial (FACS) y el manual FACS" Archivado el 19 de octubre de 2013 en Wayback Machine . Un rostro humano. Consultado el 21 de marzo de 2011.
  32. ^ "Métodos de dominio espacial" .
  33. ^ Algoritmos inteligentes. "Algoritmo de optimización de búsqueda de bacterias - Algoritmos de enjambre - Algoritmos inteligentes" Archivado el 12 de junio de 2019 en la Wayback Machine . Algoritmos inteligentes. Consultado el 21 de marzo de 2011.
  34. ^ "Computación blanda" . Computación blanda. Consultado el 18 de marzo de 2011.
  35. ^ Williams, Mark. "Mejor software de reconocimiento facial - Revisión de tecnología" . Technology Review: La autoridad sobre el futuro de la tecnología. Consultado el 21 de marzo de 2011.
  36. ^ JK Aggarwal, Q. Cai, Análisis del movimiento humano: una revisión, visión por computadora y comprensión de la imagen, vol. 73, No. 3, 1999
  37. ↑ a b Pavlovic, Vladimir I .; Sharma, Rajeev; Huang, Thomas S. (1997). "Interpretación visual de los gestos de las manos para la interacción persona-computadora: una revisión" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 19 (7): 677–695. doi : 10.1109 / 34.598226 .
  38. ↑ a b Picard, Rosalind (1998). Computación afectiva. MIT.
  39. ^ Larsen JT, Norris CJ, Cacioppo JT, " Efectos del afecto positivo y negativo sobre la actividad electromiográfica sobre zygomaticus major y corrugator supercilii ", (septiembre de 2003)
  40. ^ a b Carlos F. Benitez-Quiroz, Ramprakash Srinivasan, Aleix M. Martinez, El color facial es un mecanismo eficaz para transmitir visualmente la emoción , PNAS. 3 de abril de 2018 115 (14) 3581–3586; publicado por primera vez el 19 de marzo de 2018 https://doi.org/10.1073/pnas.1716084115 .
  41. ^ M. Bratkova, S. Boulos y P. Shirley, oRGB: un espacio de color de oponente práctico para gráficos por computadora , IEEE Computer Graphics and Applications, 29 (1): 42-55, 2009.
  42. ^ Hadas Shahar, Hagit Hel-Or , Clasificación de microexpresiones utilizando el color facial y métodos de aprendizaje profundo , Conferencia internacional IEEE sobre visión por computadora (ICCV), 2019, págs. 0-0.
  43. ^ Ritendra Datta, Dhiraj Joshi, Jia Li y James Z. Wang, Estudiar la estética en imágenes fotográficas utilizando un enfoque computacional , Notas de la conferencia en Ciencias de la Computación, vol. 3953, Actas de la Conferencia Europea sobre Visión por Computador, Parte III, págs. 288-301, Graz, Austria, mayo de 2006.
  44. ^ Wu, Chih-Hung; Huang, Yueh-Min; Hwang, Jan-Pan (noviembre de 2016). "Revisión de la computación afectiva en la educación / Aprendizaje: tendencias y desafíos" . Revista británica de tecnología educativa . 47 (6): 1304-1323. doi : 10.1111 / bjet.12324 .
  45. ^ Yonck, Richard (2017). Corazón de la máquina: nuestro futuro en un mundo de inteligencia emocional artificial . Nueva York: Arcade Publishing. págs. 150-153. ISBN 9781628727333. OCLC  956349457 .
  46. ^ Proyectos en Computación afectiva
  47. ^ Shanahan, James; Qu, Yan; Wiebe, Janyce (2006). Computación de la actitud y el afecto en el texto: teoría y aplicaciones . Dordrecht: Springer Science & Business Media. pag. 94. ISBN 1402040261 
  48. ^ Gilleade, Kiel Mark; Dix, Alan; Allanson, Jen (2005). Videojuegos afectivos y modos de juego afectivo: Ayúdame, Desafíame, Emoteme (PDF) . Proc. DiGRA Conf. Archivado desde el original (PDF) el 6 de abril de 2015 . Consultado el 10 de diciembre de 2016 .
  49. ^ Sykes, Jonathan; Brown, Simon (2003). Juego afectivo: medir la emoción a través del gamepad . CHI '03 Extended Abstracts on Human Factors in Computing Systems. CiteSeerX 10.1.1.92.2123 . doi : 10.1145 / 765891.765957 . ISBN  1581136374.
  50. ^ Nijholt, Anton; Plass-Oude Bos, Danny; Reuderink, Boris (2009). "Convertir las deficiencias en desafíos: interfaces cerebro-computadora para juegos" (PDF) . Computación de entretenimiento . 1 (2): 85–94. Código bibliográfico : 2009itie.conf..153N . doi : 10.1016 / j.entcom.2009.09.007 .
  51. ^ Reuderink, Boris; Nijholt, Anton; Poel, Mannes (2009). Pacman afectivo: un juego frustrante para experimentos de interfaz cerebro-computadora . Tecnologías inteligentes para entretenimiento interactivo (INTETAIN). págs. 221-227. doi : 10.1007 / 978-3-642-02315-6_23 . ISBN 978-3-642-02314-9.
  52. ^ Khandaker, M (2009). "Diseño de videojuegos afectivos para apoyar el desarrollo socioemocional de adolescentes con trastornos del espectro autista". Estudios en Tecnología e Informática de la Salud . 144 : 37–9. PMID 19592726 . 
  53. ^ "El reconocimiento facial en el coche detecta conductores enojados para evitar la ira en la carretera" . Gizmodo . 30 de agosto de 2018.
  54. ^ Janssen, Joris H .; van den Broek, Egon L. (julio de 2012). "Sintonice sus emociones: un robusto reproductor de música afectivo personalizado" . Modelado de usuarios e interacción adaptada al usuario . 22 (3): 255-279. doi : 10.1007 / s11257-011-9107-7 .
  55. ^ "Mona Lisa: ¿sonriendo? Los informáticos desarrollan software que evalúa las expresiones faciales" . ScienceDaily . 1 de agosto de 2006. Archivado desde el original el 19 de octubre de 2007.
  56. ^ Battarbee, Katja; Koskinen, Ilpo (2005). "Co-experiencia: experiencia de usuario como interacción" (PDF) . CoDiseño . 1 (1): 5–18. CiteSeerX 10.1.1.294.9178 . doi : 10.1080 / 15710880412331289917 . S2CID 15296236 .   
  57. ^ a b c d e f Boehner, Kirsten; DePaula, Rogerio; Dourish, Paul; Sengers, Phoebe (2007). "Cómo se hace y se mide la emoción". Revista internacional de estudios humanos e informáticos . 65 (4): 275-291. doi : 10.1016 / j.ijhcs.2006.11.016 .
  58. ^ Boehner, Kirsten; DePaula, Rogerio; Dourish, Paul; Sengers, Phoebe (2005). "Afecto: de la información a la interacción". Actas de la Conferencia Decenal de Aarhus sobre Computación Crítica : 59–68.
  59. Hook, Kristina; Staahl, Anna; Sundstrom, Petra; Laaksolahti, Jarmo (2008). "Empoderamiento interaccional" (PDF) . Proc. CHI : 647–656.

Fuentes generales

  • Hudlicka, Eva (2003). "Sentir o no sentir: el papel del afecto en la interacción humano-computadora". Revista internacional de estudios humanos e informáticos . 59 (1–2): 1–32. CiteSeerX  10.1.1.180.6429 . doi : 10.1016 / s1071-5819 (03) 00047-8 .
  • Scherer, Klaus R; Bänziger, Tanja; Roesch, Etienne B (2010). Un plan para la computación afectiva: un libro de consulta y un manual . Oxford: Prensa de la Universidad de Oxford.

enlaces externos

  • Grupo de Investigación de Computación Afectiva en el Laboratorio de Medios del MIT
  • Grupo de Emoción Computacional en la USC
  • Unidad de procesamiento de emociones - EPU
  • Grupo de Computación Emotiva en la Universidad de Memphis
  • 2011 Conferencia Internacional sobre Computación Afectiva e Interacción Inteligente
  • Cerebro, cuerpo y bytes: interacción psicofisiológica con el usuario Taller de CHI 2010 (10 a 15 de abril de 2010)
  • Transacciones IEEE sobre computación afectiva (TAC)
  • openSMILE: popular kit de herramientas de código abierto de última generación para la extracción de características a gran escala para el reconocimiento de afectos y la paralingüística computacional
Obtenido de " https://en.wikipedia.org/w/index.php?title=Affective_computing&oldid=1039473692 "