El análisis de voz es el proceso de analizar las llamadas grabadas para recopilar información del cliente para mejorar la comunicación y la interacción futura. Los centros de contacto del cliente utilizan principalmente el proceso para extraer información oculta en las interacciones del cliente con una empresa. [1] Aunque el análisis de voz incluye elementos de reconocimiento automático de voz, es conocido por analizar el tema que se está discutiendo, que se compara con el carácter emocional del discurso y la cantidad y ubicación del discurso frente al no discurso durante la interacción. El análisis de voz en los centros de contacto se puede utilizar para extraer las interacciones grabadas de los clientes y sacar a la luz la inteligencia esencial para construir estrategias efectivas de contención de costos y servicio al cliente. La tecnología puede identificar impulsores de costos, análisis de tendencias, identificar fortalezas y debilidades con procesos y productos, y ayudar a comprender cómo el mercado percibe las ofertas. [2]
Definición
El análisis de voz proporciona un análisis categórico de las conversaciones telefónicas grabadas entre una empresa y sus clientes. [3] Proporciona funcionalidad avanzada e inteligencia valiosa de las llamadas de los clientes. Esta información se puede utilizar para descubrir información relacionada con la estrategia, el producto, el proceso, los problemas operativos y el desempeño del agente del centro de contacto. [4] Además, el análisis de voz puede identificar automáticamente áreas en las que los agentes del centro de contacto pueden necesitar capacitación o entrenamiento adicional, [5] y pueden monitorear automáticamente el servicio al cliente proporcionado en las llamadas. [6]
El proceso puede aislar las palabras y frases que se utilizan con mayor frecuencia en un período de tiempo determinado, así como indicar si el uso tiene una tendencia al alza o a la baja. Esta información es útil para que los supervisores, analistas y otras personas de una organización detecten cambios en el comportamiento del consumidor y tomen medidas para reducir el volumen de llamadas y aumentar la satisfacción del cliente. Permite conocer el proceso de pensamiento de un cliente, lo que a su vez crea una oportunidad para que las empresas realicen ajustes. [7]
Usabilidad
Las aplicaciones de análisis de voz pueden detectar palabras clave o frases habladas, ya sea como alertas en tiempo real en audio en vivo o como un paso de posprocesamiento en voz grabada. Esta técnica también se conoce como minería de audio . Otros usos incluyen la categorización del habla en el entorno del centro de contacto para identificar llamadas de clientes insatisfechos. [8]
Medidas como la precisión y la recuperación , comúnmente utilizadas en el campo de la recuperación de información , son formas típicas de cuantificar la respuesta de un sistema de búsqueda de análisis de voz. [9] La precisión mide la proporción de resultados de búsqueda que son relevantes para la consulta. El recuerdo mide la proporción del número total de elementos relevantes que fueron devueltos por los resultados de la búsqueda. Cuando se ha utilizado un conjunto de prueba estandarizado, se pueden utilizar medidas como la precisión y la recuperación para comparar directamente el rendimiento de búsqueda de diferentes sistemas de análisis de voz.
Hacer una comparación significativa de la precisión de diferentes sistemas de análisis de voz puede resultar difícil. La salida de los sistemas LVCSR se puede puntuar en comparación con las transcripciones a nivel de palabra de referencia para producir un valor para la tasa de error de palabras (WER), pero debido a que los sistemas fonéticos usan teléfonos como la unidad de reconocimiento básica, en lugar de palabras, no se pueden hacer comparaciones usando esta medida . Cuando se utilizan sistemas de análisis de voz para buscar palabras o frases habladas, lo que le importa al usuario es la precisión de los resultados de búsqueda que se devuelven. Debido a que el impacto de los errores de reconocimiento individuales en estos resultados de búsqueda puede variar mucho, las medidas como la tasa de error de palabras no siempre son útiles para determinar la precisión general de la búsqueda desde la perspectiva del usuario.
Según la Oficina de Responsabilidad del Gobierno de los Estados Unidos, [10] "la confiabilidad de los datos se refiere a la precisión y la integridad de los datos procesados por computadora, dados los usos para los que están destinados". En el ámbito del reconocimiento y análisis de voz, la "integridad" se mide por la "tasa de detección" y, por lo general, a medida que aumenta la precisión, la tasa de detección disminuye. [11]
Tecnología
Los proveedores de análisis de voz utilizan el "motor" de un tercero y otros desarrollan motores patentados. La tecnología utiliza principalmente tres enfoques. El enfoque fonético es el más rápido de procesar, principalmente porque el tamaño de la gramática es muy pequeño, con un fonema como unidad básica de reconocimiento. Hay solo unas pocas decenas de fonemas únicos en la mayoría de los idiomas, y el resultado de este reconocimiento es un flujo (texto) de fonemas, que luego se pueden buscar. El reconocimiento de voz continuo de vocabulario extenso (LVCSR, más comúnmente conocido como voz a texto, transcripción completa o ASR, reconocimiento automático de voz) utiliza un conjunto de palabras (bi-gramas, tri-gramas, etc.) como unidad básica. Este enfoque requiere cientos de miles de palabras para hacer coincidir el audio. Puede hacer surgir nuevos problemas comerciales, las consultas son mucho más rápidas y la precisión es mayor que el enfoque fonético. [12]
El reconocimiento y la predicción extendidos de las emociones del habla se basan en tres clasificadores principales: kNN, C4.5 y SVM RBF Kernel. Este conjunto logra un mejor rendimiento que cada clasificador básico tomado por separado. Se compara con otros dos conjuntos de clasificadores: SVM multiclase uno contra todos (OAA) con núcleos híbridos y el conjunto de clasificadores que consta de los dos clasificadores básicos siguientes: C5.0 y Red neuronal. La variante propuesta logra un mejor rendimiento que los otros dos conjuntos de clasificadores. [13]
Crecimiento
La investigación de mercado indica que se prevé que la analítica de voz se convierta en una industria de mil millones de dólares para 2020 y que América del Norte tenga la mayor participación de mercado. [14] La tasa de crecimiento se atribuye al aumento de los requisitos de cumplimiento y gestión de riesgos, así como al aumento de la competencia de la industria a través de la inteligencia de mercado. [15] Se considera que los segmentos de telecomunicaciones , TI y subcontratación de la industria tienen la mayor cuota de mercado con un crecimiento esperado de los segmentos de viajes y hotelería. [14]
Ver también
Referencias
- ^ Coreen Bailor (agosto de 2006). "El factor por qué en el análisis del habla sobre" . Destino CRM (Destino: Gestión de la relación con el cliente). págs. 32–33 . Consultado el 30 de octubre de 2013 .
- ^ "Análisis de voz: por qué la gran fuente de datos no es música para los oídos de la competencia" . Tech Republic . Consultado el 30 de septiembre de 2016 .
- ^ "Los cinco beneficios principales de la analítica de voz para el centro de llamadas" . TechTarget.
- ^ "Análisis de voz y texto" . Genesys.
- ^ "Análisis de voz en tiempo real" . Xdroid.
- ^ "¿Las herramientas de análisis de voz cambian el comportamiento de los agentes?" . ICMI.
- ^ "Revertir un patrón de malas ventas con Speech Analytics" . Empresario.
- ^ "La era de la analítica del habla está cerca" . CRM de destino . Consultado el 30 de septiembre de 2016 .
- ^ CD Manning, P. Raghavan y H. Schütze, Introducción a la recuperación de información , capítulo 8.
- ^ "Evaluación de la confiabilidad de los datos procesados por computadora" (PDF) . Evaluación de la confiabilidad de los datos procesados por computadora . Oficina de contabilidad general de Estados Unidos.
- ^ https://knowledgespace.com.au/what-does-speech-analytics-software-actually-do/
- ^ "La tecnología adecuada para su proyecto de análisis del habla" (PDF) . CallMiner . Consultado el 30 de septiembre de 2016 .
- ^ SE Khoruzhnikov; et al. (2014). "Predicción y reconocimiento de emoción de habla extendida" . Revista Científica y Técnica de Tecnologías de la Información, Mecánica y Óptica . 14 (6): 137.
- ^ a b "Mercado de análisis de voz por valor de 1,60 mil millones de dólares en 2020" . PR Newswire.
- ^ "Cuota de mercado de la industria de análisis de voz, tamaño, crecimiento y pronóstico para 2025" . MENAFN.