Latencia (audio)

La latencia se refiere a un breve período de retraso (generalmente medido en milisegundos ) entre el momento en que una señal de audio ingresa a un sistema y el momento en que emerge. Los posibles contribuyentes a la latencia en un sistema de audio incluyen la conversión de analógico a digital , el almacenamiento en búfer , el procesamiento de señales digitales , el tiempo de transmisión , la conversión de digital a analógico y la velocidad del sonido en el medio de transmisión .

La latencia puede ser una métrica de rendimiento crítica en el audio profesional, incluidos los sistemas de refuerzo de sonido , los sistemas de retroceso (especialmente los que usan monitores internos ), radio y televisión en vivo . La latencia de audio excesiva tiene el potencial de degradar la calidad de las llamadas en las aplicaciones de telecomunicaciones . El audio de baja latencia en las computadoras es importante para la interactividad .

Llamadas telefónicas

En todos los sistemas, se puede decir que la latencia consta de tres elementos: retardo del códec , retardo de reproducción y retardo de la red.

La latencia en las llamadas telefónicas a veces se denomina retraso de boca a oreja ; la industria de las telecomunicaciones también utiliza el términocalidad de experiencia(QoE). La calidad de la voz se mide según elmodelo delaUIT; La calidad medible de una llamada se degrada rápidamente cuando la latencia de retardo de boca a oído supera los 200 milisegundos. Lapuntuación media de opinión(MOS) también es comparable de forma casi lineal con la escala de calidad de la UIT, definida en las normas G.107,^[1]^{: 800} G.108^[2] y G.109^[3] , con un factor de calidadR queva de 0 a 100. Un MOS de 4 ("Bueno") tendría unapuntuaciónRde 80 o superior; para alcanzar 100R se requiere un MOS superior a 4.5.

La UIT y el 3GPP agrupan los servicios del usuario final en clases según la sensibilidad de latencia: ^[4]

	Muy sensible al retraso Menos sensible al retraso
Clases	Clase conversacional (3GPP) Clase interactiva (ITU)	Clase interactiva (3GPP) Clase de respuesta (ITU)	Clase de transmisión (3GPP) Clase oportuna (ITU)	Clase de fondo (3GPP) Clase no crítica (ITU)
Servicios	Video / voz conversacional, video en tiempo real	Mensajería de voz	Transmisión de video y voz	Fax
Servicios	Datos en tiempo real	Datos transaccionales	Datos no en tiempo real	Datos de fondo

Del mismo modo, la recomendación G.114 sobre el retardo boca a oído indica que la mayoría de los usuarios están "muy satisfechos" siempre que la latencia no supere los 200 ms, con una R correspondiente de 90+. La elección del códec también juega un papel importante; Los códecs de mayor calidad (y mayor ancho de banda) como G.711 generalmente se configuran para incurrir en la menor latencia de codificación-decodificación, por lo que en una red con suficiente rendimiento se pueden lograr latencias de menos de 100 ms . G.711 a una velocidad de bits de 64 kbit / s es el método de codificación utilizado predominantemente en la red telefónica pública conmutada .

Llamadas móviles

El códec de banda estrecha AMR , utilizado en redes GSM y UMTS , introduce latencia en los procesos de codificación y decodificación.

A medida que los operadores móviles actualizan las redes de mejor esfuerzo existentes para admitir múltiples tipos de servicios simultáneos en redes totalmente IP, los servicios como la Calidad de servicio jerárquica ( H-QoS ) permiten políticas de QoS por usuario y por servicio para priorizar las sensibles al tiempo. protocolos como llamadas de voz y otro tráfico de backhaul inalámbrico. ^[5]^[6]^[7]

Otro aspecto de la latencia móvil es el traspaso entre redes; como cliente de la Red A llama a un cliente de la Red B, la llamada debe atravesar dos Redes de Acceso de Radio separadas , dos redes centrales y un Centro de Conmutación Móvil de Pasarela (GMSC) interconectado que realiza la interconexión física entre los dos proveedores. ^[8]

Llamadas IP

Con QoS de extremo a extremo administrado y conexiones de velocidad asegurada , la latencia se puede reducir a niveles analógicos PSTN / POTS. En una conexión estable con suficiente ancho de banda y latencia mínima, los sistemas VoIP suelen tener una latencia inherente mínima de 20 ms. En condiciones de red menos ideales, se busca una latencia máxima de 150 ms para el uso general del consumidor. ^[9]^{[10] La} latencia es una consideración más importante cuando hay eco y los sistemas deben realizar supresión y cancelación de eco . ^[11]

Audio de computadora

La latencia puede ser un problema particular en las plataformas de audio de las computadoras. Las optimizaciones de interfaz admitidas reducen el retraso a tiempos que son demasiado cortos para que el oído humano los detecte. Al reducir el tamaño del búfer, se puede reducir la latencia. ^[12] Una solución de optimización popular es ASIO de Steinberg , que pasa por alto la plataforma de audio y conecta las señales de audio directamente al hardware de la tarjeta de sonido. Muchas aplicaciones de audio profesionales y semiprofesionales utilizan el controlador ASIO, lo que permite a los usuarios trabajar con audio en tiempo real. ^[13] Pro Tools HD ofrece un sistema de baja latencia similar a ASIO. Pro Tools 10 y 11 también son compatibles con controladores de interfaz ASIO.

El kernel en tiempo real de Linux ^[14] es un kernel modificado, que altera la frecuencia de temporizador estándar que usa el kernel de Linux y da a todos los procesos o subprocesos la capacidad de tener prioridad en tiempo real. Esto significa que un proceso de tiempo crítico como una transmisión de audio puede tener prioridad sobre otro proceso menos crítico como la actividad de la red. Esto también es configurable por usuario (por ejemplo, los procesos del usuario "tux" podrían tener prioridad sobre los procesos del usuario "nadie" o sobre los procesos de varios demonios del sistema ).

Audio de televisión digital

Muchos receptores de televisión digital, decodificadores y receptores AV modernos utilizan un procesamiento de audio sofisticado, que puede crear un retraso entre el momento en que se recibe la señal de audio y el momento en que se escucha en los altavoces. Dado que los televisores también introducen retrasos en el procesamiento de la señal de vídeo, esto puede dar como resultado que las dos señales estén lo suficientemente sincronizadas para que el espectador no las note. Sin embargo, si la diferencia entre el retardo de audio y video es significativa, el efecto puede ser desconcertante. Algunos sistemas tienen una configuración de sincronización de labios que permite ajustar el retardo de audio para sincronizar con el video, y otros pueden tener configuraciones avanzadas donde algunos de los pasos de procesamiento de audio pueden desactivarse.

El retraso de audio también es un detrimento significativo en los juegos de ritmo , donde se requiere una sincronización precisa para tener éxito. La mayoría de estos juegos tienen una configuración de calibración de retardo, por lo que el juego ajustará las ventanas de tiempo en una cierta cantidad de milisegundos para compensar. En estos casos, las notas de una canción se enviarán a los altavoces antes de que el juego reciba la entrada requerida del jugador para mantener la ilusión de ritmo. Los juegos que se basan en la improvisación musical , como la batería de Rock Band o DJ Hero , aún pueden sufrir tremendamente, ya que el juego no puede predecir lo que golpeará el jugador en estos casos, y un retraso excesivo seguirá creando un retraso notable entre tocar las notas y escucharlas. tocar.

Transmisión de audio

La latencia de audio se puede experimentar en sistemas de transmisión en los que alguien está contribuyendo a una transmisión en vivo a través de un satélite o enlace similar con un alto retraso. La persona en el estudio principal tiene que esperar a que el colaborador en el otro extremo del enlace reaccione a las preguntas. La latencia en este contexto podría estar entre varios cientos de milisegundos y algunos segundos. Tratar con latencias de audio tan altas requiere un entrenamiento especial para que la salida de audio combinada resultante sea razonablemente aceptable para los oyentes. Siempre que sea práctico, es importante tratar de mantener baja la latencia del audio de la producción en vivo para que las reacciones y el intercambio de los participantes sean lo más naturales posible. Una latencia de 10 milisegundos o más es el objetivo de los circuitos de audio dentro de las estructuras de producción profesionales. ^[15]

Audio de actuación en directo

La latencia en la interpretación en vivo se produce de forma natural por la velocidad del sonido . El sonido tarda unos 3 milisegundos en recorrer 1 metro. Se producen pequeñas cantidades de latencia entre los artistas, dependiendo de cómo estén espaciados entre sí y de los monitores de escenario, si se utilizan. Esto crea un límite práctico a la distancia entre los artistas de un grupo. El monitoreo de escenario extiende ese límite, ya que el sonido viaja cerca de la velocidad de la luz a través de los cables que conectan los monitores de escenario.

Los artistas, particularmente en espacios grandes, también escucharán reverberación o eco de su música, ya que el sonido que se proyecta desde el escenario rebota en las paredes y estructuras y regresa con latencia y distorsión. Un propósito principal del monitoreo de escenario es proporcionar a los artistas un sonido más primario para que no se vean afectados por la latencia de estas reverberaciones.

Procesamiento de señales en vivo

Si bien el equipo de audio analógico no tiene una latencia apreciable, el equipo de audio digital tiene una latencia asociada con dos procesos generales: conversión de un formato a otro y tareas de procesamiento de señal digital (DSP) como ecualización, compresión y enrutamiento.

Los procesos de conversión digital incluyen convertidores de analógico a digital (ADC), convertidores de digital a analógico (DAC) y varios cambios de un formato digital a otro, como AES3, que transporta señales eléctricas de bajo voltaje a ADAT , un medio de transporte óptico. . Cualquier proceso de este tipo requiere una pequeña cantidad de tiempo; las latencias típicas están en el rango de 0,2 a 1,5 milisegundos, según la frecuencia de muestreo, el diseño del software y la arquitectura del hardware. ^[dieciséis]

Las diferentes operaciones de procesamiento de señales de audio , como los filtros de respuesta de impulso finito (FIR) y de respuesta de impulso infinito (IIR), adoptan diferentes enfoques matemáticos para el mismo fin y pueden tener diferentes latencias. Además, el almacenamiento en búfer de muestras de entrada y salida añaden retraso. Las latencias típicas oscilan entre 0,5 y diez milisegundos y algunos diseños tienen hasta 30 milisegundos de retraso. ^[17]

La latencia en los equipos de audio digital es más notable cuando la voz de un cantante se transmite a través de su micrófono, a través de rutas de enrutamiento, procesamiento y mezcla de audio digital, y luego se envía a sus propios oídos a través de monitores de oído o auriculares. En este caso, el sonido vocal del cantante se conduce a su propio oído a través de los huesos de la cabeza, luego a través de la vía digital a sus oídos unos milisegundos más tarde. En un estudio, los oyentes encontraron que la latencia superior a 15 ms era notable. La latencia para otras actividades musicales como tocar la guitarra no tiene la misma preocupación crítica. Diez milisegundos de latencia no son tan perceptibles para un oyente que no está escuchando su propia voz. ^[18]

Altavoces retardados

En el refuerzo de sonido para presentaciones de música o discursos en lugares grandes, es óptimo entregar suficiente volumen de sonido en la parte posterior del lugar sin recurrir a volúmenes de sonido excesivos cerca del frente. Una forma de que los ingenieros de audio lo logren es utilizar altavoces adicionales colocados a una distancia del escenario pero más cerca de la parte trasera de la audiencia. El sonido viaja a través del aire a la velocidad del sonido (alrededor de 343 metros (1,125 pies) por segundo, dependiendo de la temperatura y la humedad del aire). Al medir o estimar la diferencia de latencia entre los altavoces cerca del escenario y los altavoces más cercanos a la audiencia, el ingeniero de audio puede introducir un retardo apropiado en la señal de audio que llega a los últimos altavoces, de modo que los frentes de onda de los altavoces cercanos y lejanos lleguen a al mismo tiempo. Debido al efecto Haas un adicionales 15 milisegundos se pueden añadir al tiempo de retardo de los altavoces más cercanos al público, de modo que de frente de onda de la etapa les llega en primer lugar, para enfocar la atención del público en el escenario en lugar del altavoz local. El sonido ligeramente posterior de los altavoces retardados simplemente aumenta el nivel de sonido percibido sin afectar negativamente la localización.

Ver también

Retraso (efecto de audio)
Retardo de grupo y retardo de fase

Referencias

^ "G.107: El modelo E: un modelo computacional para su uso en la planificación de la transmisión" (PDF) . Unión Internacional de Telecomunicaciones . 2000-06-07 . Consultado el 14 de enero de 2013 .
^ "G.108: Aplicación del modelo E: una guía de planificación" (PDF) . Unión Internacional de Telecomunicaciones . 2000-07-28 . Consultado el 14 de enero de 2013 .
^ "G.109: Definición de categorías de calidad de transmisión de voz - UIT" (PDF) . Unión Internacional de Telecomunicaciones . 2000-05-11 . Consultado el 14 de enero de 2013 .
^ O3b Networks y Sofrecom. "Por qué es importante la latencia para el backhaul móvil: redes O3b" (PDF) . Redes O3b . Consultado el 11 de enero de 2013 .
^ Nir, Halachmi; O3b Networks y Sofrecom (17 de junio de 2011). "Solución HQoS" . Telco.com . Consultado el 11 de enero de 2013 .
^ Cisco. "Consideraciones arquitectónicas para backhaul de 2G / 3G y redes de evolución a largo plazo" . Informe técnico de Cisco . Cisco . Consultado el 11 de enero de 2013 .
^ "Libro blanco: el impacto de la latencia en el rendimiento de la aplicación" (PDF) . Nokia Siemens Networks . 2009. Archivado desde el original (PDF) en 2013-08-01.
^ "Arquitectura de red GSM" . GSM para tontos . Consultado el 11 de enero de 2013 .
^ "G.114: Tiempo de transmisión unidireccional" . www.itu.int . Consultado el 16 de noviembre de 2019 .
^ "Requisitos de QoS para voz, video y datos> Implementación de calidad de servicio sobre VPN de Cisco MPLS" . www.ciscopress.com . Consultado el 16 de noviembre de 2019 .
^ Michael Dosch y Steve Church. "VoIP en el estudio de transmisión" . Axia Audio. Archivado desde el original el 7 de octubre de 2011 . Consultado el 21 de junio de 2011 .
^ Huber, David M. y Robert E. Runstein. "Latencia." Técnicas modernas de grabación. 7ª ed. Nueva York y Londres: Focal, 2013. 252. Imprimir.
^ JD Mars. Mejor latente que nunca: una discusión largamente esperada sobre problemas de latencia de audio
^ Wiki de Linux en tiempo real
^ Introducción a Livewire (PDF) , Axia Audio, abril de 2007, archivado desde el original (PDF) en 2011-10-07 , consultado 2011-06-21
^ Fonseca, Nuno; Monteiro, Edmundo, problemas de latencia de audio en red , Audio Engineering Society
^ ProSoundWeb. David McNell. Transporte de audio en red: análisis de los métodos y factores Archivado el 21 de marzo de 2008 en Wayback Machine
^ Torbellino. ¿Abriendo la caja de Pandora? La palabra "L": latencia y sistemas de audio digital

enlaces externos

La colaboración musical nunca sucederá en línea en tiempo real

[itug107-1] "G.107: El modelo E: un modelo computacional para su uso en la planificación de la transmisión" (PDF) . Unión Internacional de Telecomunicaciones . 2000-06-07 . Consultado el 14 de enero de 2013 .

[itug108-2] "G.108: Aplicación del modelo E: una guía de planificación" (PDF) . Unión Internacional de Telecomunicaciones . 2000-07-28 . Consultado el 14 de enero de 2013 .

[itug109-3] "G.109: Definición de categorías de calidad de transmisión de voz - UIT" (PDF) . Unión Internacional de Telecomunicaciones . 2000-05-11 . Consultado el 14 de enero de 2013 .

[03blatency-4] O3b Networks y Sofrecom. "Por qué es importante la latencia para el backhaul móvil: redes O3b" (PDF) . Redes O3b . Consultado el 11 de enero de 2013 .

[telcohqos-5] Nir, Halachmi; O3b Networks y Sofrecom (17 de junio de 2011). "Solución HQoS" . Telco.com . Consultado el 11 de enero de 2013 .

[ciscoltehqos-6] Cisco. "Consideraciones arquitectónicas para backhaul de 2G / 3G y redes de evolución a largo plazo" . Informe técnico de Cisco . Cisco . Consultado el 11 de enero de 2013 .

[nsnlatencywp-7] "Libro blanco: el impacto de la latencia en el rendimiento de la aplicación" (PDF) . Nokia Siemens Networks . 2009. Archivado desde el original (PDF) en 2013-08-01.

[gsmfordummies-8] "Arquitectura de red GSM" . GSM para tontos . Consultado el 11 de enero de 2013 .

[9] "G.114: Tiempo de transmisión unidireccional" . www.itu.int . Consultado el 16 de noviembre de 2019 .

[10] "Requisitos de QoS para voz, video y datos> Implementación de calidad de servicio sobre VPN de Cisco MPLS" . www.ciscopress.com . Consultado el 16 de noviembre de 2019 .

[11] Michael Dosch y Steve Church. "VoIP en el estudio de transmisión" . Axia Audio. Archivado desde el original el 7 de octubre de 2011 . Consultado el 21 de junio de 2011 .

[12] Huber, David M. y Robert E. Runstein. "Latencia." Técnicas modernas de grabación. 7ª ed. Nueva York y Londres: Focal, 2013. 252. Imprimir.

[13] JD Mars. Mejor latente que nunca: una discusión largamente esperada sobre problemas de latencia de audio

[14] Wiki de Linux en tiempo real

[15] Introducción a Livewire (PDF) , Axia Audio, abril de 2007, archivado desde el original (PDF) en 2011-10-07 , consultado 2011-06-21

[16] Fonseca, Nuno; Monteiro, Edmundo, problemas de latencia de audio en red , Audio Engineering Society

[17] ProSoundWeb. David McNell. Transporte de audio en red: análisis de los métodos y factores Archivado el 21 de marzo de 2008 en Wayback Machine

[whirlwindusa.com-18] Torbellino. ¿Abriendo la caja de Pandora? La palabra "L": latencia y sistemas de audio digital

[1]