La sincronización de audio a video ( sincronización AV , también conocida como sincronización de labios , o por la falta de ella: error de sincronización de labios , aleta de labios ) se refiere a la sincronización relativa de las partes de audio (sonido) y video (imagen) durante la creación, procesamiento de postproducción (mezcla), transmisión , recepción y reproducción. La sincronización AV puede ser un problema en televisión , videoconferencia o cine .
En la terminología de la industria, el error de sincronización de labios se expresa como la cantidad de tiempo que el audio se aleja de la sincronización perfecta con el video donde un número de tiempo positivo indica que el audio lidera el video y un número negativo indica que el audio se retrasa con respecto al video. [1] Esta terminología y estandarización del error numérico de sincronización de labios se utiliza en la industria de la transmisión profesional como lo demuestran los diversos artículos profesionales, [2] estándares como ITU-R BT.1359-1 y otras referencias a continuación.
Los archivos de vídeo o secuencias de vídeo de audio digital o analógico suelen contener algún tipo de mecanismo de sincronización, ya sea en forma de datos de vídeo y audio intercalados o mediante una marca de tiempo relativa explícita de los datos. El procesamiento de datos debe respetar la sincronización relativa de los datos, por ejemplo, estirando o interpolando los datos recibidos. Si el procesamiento no respeta el error de sincronización AV, aumentará cuando los datos se pierdan debido a errores de transmisión o debido a un procesamiento faltante o mal programado.
Sincronizado incorrectamente
Hay diferentes formas en las que AV-sync puede sincronizarse incorrectamente:
- Durante la creación, se producen errores de sincronización AV debido a
- Error de sincronización AV interno: diferentes retrasos en el procesamiento de la señal entre la imagen y el sonido en la cámara de video y el micrófono . El retardo de sincronización AV normalmente es fijo.
- Error de sincronización de AV externo: si un micrófono se coloca lejos de la fuente de sonido, el audio no estará sincronizado porque la velocidad del sonido es mucho más baja que la velocidad de la luz . Si la fuente de sonido está a 340 metros del micrófono, entonces el sonido llega aproximadamente 1 segundo más tarde que la luz. El retraso de la sincronización AV aumenta con la distancia.
- Durante la mezcla de videoclips, normalmente es necesario retrasar el audio o el video para que estén sincronizados. El retardo de sincronización AV es estático pero puede variar con el clip individual.
- Efectos de edición de video .
Ejemplos de transmisión ( difusión ), recepción y reproducción que pueden hacer que la sincronización AV se sincronice incorrectamente:
- Es posible que una cámara de video con micrófonos incorporados o entrada de línea no retrase las rutas de sonido y video en la misma cantidad de milisegundos. Una cámara de video debe tener algún tipo de sincronización de AV explícita en las transmisiones de video y audio. Las cámaras de video de estado sólido (por ejemplo , dispositivos de carga acoplada (CCD) y sensores de imagen CMOS ) pueden retrasar la señal de video en uno o más cuadros.
- Un flujo de AV puede corromperse durante la transmisión debido a fallas eléctricas (cableadas) o interrupciones inalámbricas; esto puede causar que se desincronice. El retraso de la sincronización AV normalmente aumenta con el tiempo.
- Existe un amplio uso de circuitos de procesamiento de señales de audio y video con retrasos significativos (y a menudo no constantes) en los sistemas de televisión. Los circuitos de procesamiento de señales de video particulares que se usan ampliamente y contribuyen con retrasos de video significativos incluyen sincronizadores de cuadros, procesadores de efectos de video digitales, reducción de ruido de video, convertidores de formato y sistemas de compresión .
- El circuito de procesamiento del monitor de video puede retrasar el flujo de video. Las pantallas pixeladas requieren conversión de formato de video y procesamiento de desentrelazado, lo que puede agregar uno o más cuadros de retraso de video.
- Es posible que un monitor de video con altavoces integrados o salida de línea no retrase las rutas de sonido y video en la misma cantidad de milisegundos. Algunos monitores de video contienen retardos de audio internos ajustables por el usuario para ayudar en la corrección de errores.
- Algunos protocolos de transmisión como RTP requieren un método fuera de banda para sincronizar transmisiones de medios. En el caso de RTP, cada flujo de medios tiene su propia marca de tiempo utilizando una frecuencia de reloj independiente y un valor inicial aleatorio por flujo. Se necesita un Informe de remitente (SR) de RTCP para cada flujo con el fin de sincronizar los flujos. [3] Los paquetes RTCP necesarios pueden perderse (ya que RTP / RTCP no garantiza la entrega ) o no enviarse hasta al menos varios segundos después de que haya comenzado la transmisión. Muchos clientes de software no envían RTCP en absoluto o envían datos no compatibles. [ cita requerida ]
Efecto de la sincronización no explícita de AV
Cuando una transmisión de audio y video digital o analógica no tiene algún tipo de sincronización AV explícita, estos efectos harán que la transmisión se desincronice:
- En las películas cinematográficas, estos errores de sincronización suelen ser causados por películas gastadas que se saltan las ruedas dentadas del proyector de películas porque la película tiene orificios de ruedas rotas.
- Los errores también pueden deberse a que el proyeccionista coloca mal la película en el proyector, aunque esto es poco común con proyeccionistas competentes.
- La sincronización AV se corrige y mantiene comúnmente con un sincronizador de audio . Las organizaciones de estándares de la industria de la televisión han establecido cantidades aceptables de errores de sincronización de audio y video y han sugerido prácticas relacionadas con el mantenimiento de una sincronización aceptable. [4] [1]
- Los errores de sincronización AV se están convirtiendo en un problema importante en la industria de la televisión digital debido al uso de grandes cantidades de procesamiento de señales de video en la producción de televisión, transmisión de televisión y pantallas de televisión pixeladas como pantallas LCD , DLP y de plasma .
- En el campo de la televisión , los problemas de sincronización de audio y video se producen comúnmente cuando se realizan cantidades significativas de procesamiento de video en la parte de video del programa de televisión.
- Las fuentes típicas de retrasos de video significativos en el campo de la televisión incluyen sincronizadores de video y codificadores y decodificadores de compresión de video. Los codificadores y descodificadores particularmente problemáticos se utilizan en los sistemas de compresión MPEG utilizados para transmitir televisión digital y almacenar programas de televisión en dispositivos de grabación y reproducción de consumidores y profesionales.
- Una fuente de retraso de video significativo se encuentra en las pantallas de televisión pixeladas (LCD, DLP y plasma) que utilizan un procesamiento de señal de video complejo para convertir la resolución de la señal de video entrante a la resolución nativa de la pantalla pixelada, por ejemplo, convertir video de definición estándar a aparecer en una pantalla de alta definición. El "lip-flap" puede exceder los 200 ms en ocasiones.
- En la televisión abierta, no es inusual que el error de sincronización de labios varíe en más de 100 ms (varios cuadros de video) de vez en cuando.
- La Recomendación de la UER R37 "La sincronización relativa de los componentes de sonido y visión de una señal de televisión" establece que la sincronización de audio / video de extremo a extremo debe estar dentro de + 40ms y -60ms (audio antes / después del video, respectivamente) y que cada la etapa debe estar entre + 5ms y -15ms. [5]
Experiencia del espectador de sincronización AV sincronizada incorrectamente
El resultado suele dejar a un personaje filmado o televisado moviendo la boca cuando no hay un diálogo hablado que lo acompañe, de ahí el término "aleteo de labios" o "error de sincronización de labios". El error de sincronización de audio y video resultante puede ser molesto para el espectador e incluso puede hacer que el espectador no disfrute del programa, disminuya la efectividad del programa o lleve a una percepción negativa del hablante por parte del espectador. [6] La posible pérdida de eficacia es de especial preocupación para los comerciales de productos y los candidatos políticos. Las organizaciones de estándares de la industria de la televisión, como el Comité de sistemas de televisión avanzados , se han involucrado en el establecimiento de estándares para los errores de sincronización de audio y video. [4]
Debido a estas molestias, el error de sincronización AV es una preocupación para la industria de la programación de televisión, incluidas las estaciones de televisión, las cadenas, los anunciantes y las empresas de producción de programas. Desafortunadamente, el advenimiento de las tecnologías de pantalla plana de alta definición (LCD, DLP y plasma), que pueden retrasar el video más que el audio, ha trasladado el problema al hogar del espectador y más allá del control de la industria de programación de televisión. Las empresas de productos de consumo ahora ofrecen ajustes de retardo de audio para compensar los cambios de retardo de video en televisores y receptores A / V, y varias empresas fabrican retardos de audio digital dedicados hechos exclusivamente para la corrección de errores de sincronización de labios.
Recomendaciones
Para las aplicaciones de televisión, el Comité de Sistemas de Televisión Avanzados recomienda que el audio debe adelantar al video en no más de 15 milisegundos y que el audio debe retrasar el video en no más de 45 milisegundos. [4] Sin embargo, la UIT realizó pruebas estrictamente controladas con espectadores expertos y encontró que el umbral de detectabilidad es de -125 ms a + 45 ms. [1] Para películas, se considera que la sincronización de labios aceptable no es superior a 22 milisegundos en cualquier dirección. [5] [7]
La Consumer Electronics Association ha publicado un conjunto de recomendaciones sobre cómo los receptores de televisión digital deben implementar la sincronización A / V. [8]
SMPTE ST2064
El estándar SMPTE ST2064, publicado en 2015, [9] proporciona tecnología para reducir o eliminar los errores de sincronización de labios en la televisión digital. El estándar utiliza huellas digitales de audio y video tomadas de un programa de televisión. Las huellas digitales se pueden recuperar y utilizar para corregir el error de sincronización de labios acumulado. Cuando se han generado huellas dactilares para un programa de televisión y se incorpora la tecnología requerida, el dispositivo de visualización del espectador tiene la capacidad de medir y corregir continuamente los errores de sincronización de labios. [10] [11]
Marcas de tiempo
Las marcas de tiempo de presentación (PTS) están integradas en los flujos de transporte MPEG para señalar con precisión cuándo se presentará cada segmento de audio y video, para evitar errores de sincronización AV. Sin embargo, estas marcas de tiempo a menudo se agregan después de que el video se somete a sincronización de fotogramas, conversión de formato y preprocesamiento y, por lo tanto, los errores de sincronización de labios creados por estas operaciones no se corregirán mediante la adición y el uso de marcas de tiempo. [12] [13] [14] [15]
El Protocolo de transporte en tiempo real registra los medios utilizando marcas de tiempo de origen en una línea de tiempo arbitraria. Se puede utilizar un reloj en tiempo real como el proporcionado por el Protocolo de tiempo de red y descrito en el Protocolo de descripción de sesión [16] asociado con los medios para sincronizar los medios. A continuación, se puede utilizar un servidor para la sincronización final para eliminar cualquier desplazamiento residual. [17]
Ver también
- Sincronizador de audio
- Claqueta
- Doblaje (realización de películas)
- Retraso de entrada
- Sincronización labial
Referencias
- ^ a b c "UIT-R BT.1359-1, sincronización relativa del sonido y la visión para la radiodifusión" (PDF) . ITU. 1998 . Consultado el 30 de mayo de 2015 .
- ^ Patrick Waddell; Graham Jones; Adam Goldberg. "Estándares y soluciones de audio / video Un informe de estado" (PDF) . ATSC . Consultado el 4 de abril de 2012 .
- ^ RFC 3550
- ^ a b c IS-191: Tiempo relativo de sonido y visión para operaciones de transmisión , ATSC , 2003-06-26, archivado desde el original el 2012-03-21
- ^ a b "La sincronización relativa de los componentes de sonido y visión de una señal de televisión" (PDF) .
- ^ Byron Reeves; David Voelker (octubre de 1993). "Efectos de la asincronía audio-video en la memoria del espectador, evaluación del contenido y capacidad de detección" (PDF) . Archivado desde el original (PDF) el 2 de octubre de 2008 . Consultado el 19 de octubre de 2008 .
- ^ Sara Kudrle; et al. (Julio de 2011). "Toma de huellas dactilares para resolver problemas de sincronización de A / V en entornos de transmisión". Diario de imágenes en movimiento . SMPTE .
Se han establecido límites de sincronización A / V apropiados y el rango que se considera aceptable para la película es +/- 22 ms. El rango para video, según el ATSC, es de hasta 15 ms de tiempo de espera y de aproximadamente 45 ms de tiempo de retraso.
- ^ Asociación de Electrónica de Consumo. "CEA-CEB20 R-2013: Práctica recomendada de procesamiento de sincronización A / V" . Archivado desde el original el 30 de mayo de 2015.
- ^ ST 2064: 2015 - Estándar SMPTE - Medición de sincronización de audio a video , SMPTE , 2015
- ^ Actualización de los estándares SMPTE: The Lip-Sync Challenge , SMPTE , 10 de diciembre de 2013
- ^ Actualización de los estándares SMPTE: The Lip-Sync Challenge (PDF) , SMPTE , 10 de diciembre de 2013
- ^ "Preguntas frecuentes sobre sistemas MPEG-2: 19. ¿Dónde se insertan los PTS y DTS?" . Archivado desde el original el 26 de julio de 2008 . Consultado el 27 de diciembre de 2007 .
- ^ Arpi (7 de mayo de 2003). "MPlayer-G2-dev: temporización del contenedor mpeg (valores PTS)" .
- ^ "birds-eye.net: DTS - Decode Time Stamp" .
- ^ "SVCD2DVD: Cree y grabe DVD: AVI a DVD, DivX a DVD, Xvid a DVD, MPEG a DVD, SVCD a DVD, VCD a DVD, conversión de PAL a NTSC, HDTV2DVD, HDTV a DVD, BLURAY" . www.svcd2dvd.com .
- ^ RFC 7273
- ^ RFC 7272
Otras lecturas
- Cugnini, Aldo (1 de septiembre de 2007). "Gestión de la sincronización de labios" . Tecnología de TV, originalmente de Broadcast Engineering. Archivado desde el original el 8 de octubre de 2015 . Consultado el 19 de octubre de 2008 .
- Salmón RA; Andrew Mason (enero de 2009). "Factores que afectan la percepción de la sincronización audio-video en televisión" . Investigación y desarrollo de la BBC . Consultado el 2 de junio de 2013 . Cite journal requiere
|journal=
( ayuda ) - Sieranoja, S .; Sahidullah, Md; Kinnunen, T .; Komulainen, J .; Hadid, A. (julio de 2018). "Detección de sincronía audiovisual con funciones de audio optimizadas" (PDF) . IEEE 3rd Int. Conferencia sobre procesamiento de señales e imágenes (ICSIP 2018) : 377–381. doi : 10.1109 / SIPROCESS.2018.8600424 . ISBN 978-1-5386-6396-7.