La medida del índice de similitud estructural ( SSIM ) es un método para predecir la calidad percibida de la televisión digital y las imágenes cinematográficas, así como otros tipos de imágenes y videos digitales. SSIM se utiliza para medir la similitud entre dos imágenes. El índice SSIM es una métrica de referencia completa ; en otras palabras, la medición o predicción de la calidad de la imagen se basa en una imagen inicial sin comprimir o sin distorsiones como referencia.
SSIM es un modelo basado en la percepción que considera la degradación de la imagen como un cambio percibido en la información estructural , al tiempo que incorpora importantes fenómenos de percepción, incluidos los términos de enmascaramiento de luminancia y enmascaramiento de contraste. La diferencia con otras técnicas como MSE o PSNR es que estos enfoques estiman errores absolutos . La información estructural es la idea de que los píxeles tienen fuertes interdependencias, especialmente cuando están espacialmente cerca. Estas dependencias llevan información importante sobre la estructura de los objetos en la escena visual. El enmascaramiento de luminancia es un fenómeno por el cual las distorsiones de la imagen (en este contexto) tienden a ser menos visibles en regiones brillantes, mientras que el enmascaramiento de contraste es un fenómeno por el cual las distorsiones se vuelven menos visibles donde hay una actividad significativa o "textura" en la imagen.
Historia
El predecesor de SSIM se llamó Índice de Calidad Universal (UQI), o Índice Wang-Bovik , que fue desarrollado por Zhou Wang y Alan Bovik en 2001. Este evolucionó, a través de su colaboración con Hamid Sheikh y Eero Simoncelli , en la versión actual de SSIM. , que se publicó en abril de 2004 en IEEE Transactions on Image Processing . [1] Además de definir el índice de calidad SSIM, el artículo proporciona un contexto general para desarrollar y evaluar medidas de calidad perceptiva, incluidas las conexiones con la neurobiología y percepción visual humana, y la validación directa del índice frente a las calificaciones de sujetos humanos.
El modelo básico se desarrolló en el Laboratorio de Ingeniería de Imagen y Video (LIVE) de la Universidad de Texas en Austin y se desarrolló posteriormente en conjunto con el Laboratorio de Visión Computacional (LCV) de la Universidad de Nueva York . Se han desarrollado más variantes del modelo en el Laboratorio de Computación Visual e Imagen de la Universidad de Waterloo y se han comercializado.
Posteriormente, SSIM encontró una fuerte adopción en la comunidad de procesamiento de imágenes. El artículo de SSIM de 2004 ha sido citado más de 20.000 veces según Google Scholar , [2] lo que lo convierte en uno de los artículos más citados en los campos de procesamiento de imágenes e ingeniería de video. Se le otorgó el premio IEEE Signal Processing Society Best Paper Award en 2009. [3] También recibió el premio IEEE Signal Processing Society Sustained Impact Award de 2016, indicativo de un artículo que ha tenido un impacto inusualmente alto durante al menos 10 años después de su publicación.
Algoritmo
El índice SSIM se calcula en varias ventanas de una imagen. La medida entre dos ventanas y de tamaño común N × N es: [4]
con:
- el promedio de;
- el promedio de;
- la varianza de;
- la varianza de;
- la covarianza de y ;
- , dos variables para estabilizar la división con denominador débil;
- el rango dinámico de los valores de los píxeles (normalmente es);
- y por defecto.
Componentes de la fórmula
La fórmula SSIM se basa en tres mediciones de comparación entre las muestras de y : luminancia (), contraste () y estructura (). Las funciones de comparación individuales son: [4]
con, además de las definiciones anteriores:
SSIM es entonces una combinación ponderada de esas medidas comparativas:
Establecer los pesos a 1, la fórmula se puede reducir a la forma que se muestra arriba.
Propiedades Matemáticas
SSIM satisface la identidad de los indiscernibles y las propiedades de simetría, pero no la desigualdad o la no negatividad del triángulo, por lo que no es una función de distancia . Sin embargo, bajo ciertas condiciones, SSIM se puede convertir a una medida MSE raíz normalizada, que es una función de distancia. [5] El cuadrado de dicha función no es convexo, pero es localmente convexo y cuasiconvexo , [5] haciendo que SSIM sea un objetivo factible para la optimización.
Aplicación de la fórmula
Para evaluar la calidad de la imagen, esta fórmula generalmente se aplica solo en luma , aunque también se puede aplicar en valores de color (por ejemplo, RGB ) o valores cromáticos (por ejemplo, YCbCr ). El índice SSIM resultante es un valor decimal entre 0 y 1, y el valor 1 solo es alcanzable en el caso de dos conjuntos de datos idénticos y, por lo tanto, indica una similitud estructural perfecta. Un valor de 0 indica que no hay similitud estructural. Para una imagen, normalmente se calcula utilizando una ventana gaussiana deslizante de tamaño 11x11 o una ventana de bloque de tamaño 8 × 8. La ventana se puede desplazar píxel a píxel en la imagen para crear un mapa de calidad SSIM de la imagen. En el caso de la evaluación de la calidad del video, [6] los autores proponen utilizar solo un subgrupo de las posibles ventanas para reducir la complejidad del cálculo.
Variantes
SSIM multiescala
Una forma más avanzada de SSIM, llamada SSIM multiescala (MS-SSIM) [4] se realiza en escalas múltiples a través de un proceso de múltiples etapas de submuestreo, que recuerda al procesamiento multiescala en el sistema de visión inicial. Se ha demostrado que funciona igual o mejor que SSIM en diferentes bases de datos subjetivas de imágenes y videos. [4] [7] [8]
SSIM multicomponente
SSIM de tres componentes (3-SSIM) es una forma de SSIM que tiene en cuenta el hecho de que el ojo humano puede ver las diferencias con mayor precisión en las regiones con textura o bordes que en las regiones lisas. [9] La métrica resultante se calcula como un promedio ponderado de SSIM para tres categorías de regiones: bordes, texturas y regiones suaves. La ponderación propuesta es 0,5 para los bordes, 0,25 para las regiones texturizadas y lisas. Los autores mencionan que una ponderación de 1/0/0 (ignorando cualquier cosa que no sean las distorsiones de los bordes) conduce a resultados más cercanos a las calificaciones subjetivas. Esto sugiere que las regiones de los bordes juegan un papel dominante en la percepción de la calidad de la imagen.
Los autores de 3-SSIM también han extendido el modelo a SSIM de cuatro componentes (4-SSIM). Los tipos de aristas se subdividen en aristas conservadas y modificadas según su estado de distorsión. La ponderación propuesta es 0,25 para los cuatro componentes. [10]
Disimilitud estructural
La disimilitud estructural (DSSIM) puede derivarse de SSIM, aunque no constituye una función de distancia ya que la desigualdad del triángulo no se satisface necesariamente.
Métricas de calidad de video y variantes temporales
Vale la pena señalar que la versión original SSIM fue diseñada para medir la calidad de las imágenes fijas. No contiene ningún parámetro directamente relacionado con los efectos temporales de la percepción y el juicio humanos. [7] Una práctica común es calcular el valor SSIM promedio en todos los cuadros de la secuencia de video. Sin embargo, se han desarrollado varias variantes temporales de SSIM. [11] [6] [12]
SSIM Wavelet complejo
La variante de transformada de ondícula compleja del SSIM (CW-SSIM) está diseñada para tratar problemas de escalado, traslación y rotación de imágenes. En lugar de otorgar puntuaciones bajas a las imágenes con tales condiciones, el CW-SSIM aprovecha la compleja transformada de ondículas y, por tanto, otorga puntuaciones más altas a dichas imágenes. El CW-SSIM se define de la siguiente manera:
Dónde es la compleja transformada de ondículas de la señal y es la transformada de ondícula compleja para la señal . Adicionalmente,es un pequeño número positivo que se utiliza para la estabilidad de la función. Idealmente, debería ser cero. Al igual que el SSIM, el CW-SSIM tiene un valor máximo de 1. El valor máximo de 1 indica que las dos señales son perfectamente similares estructuralmente, mientras que un valor de 0 indica que no hay similitud estructural. [13]
SSIMPLUS
El índice SSIMPLUS se basa en SSIM y es una herramienta disponible comercialmente. [14] Extiende las capacidades de SSIM, principalmente para apuntar a aplicaciones de video. Proporciona puntuaciones en el rango de 0 a 100, alineadas linealmente con las puntuaciones subjetivas humanas. También permite adaptar las partituras al dispositivo de visualización previsto, comparando videos en diferentes resoluciones y contenidos.
Según sus autores, SSIMPLUS logra una mayor precisión y mayor velocidad que otras métricas de calidad de imagen y video. Sin embargo, no se ha realizado una evaluación independiente de SSIMPLUS, ya que el algoritmo en sí no está disponible públicamente.
cSSIM
Para investigar más a fondo el SSIM discreto estándar desde una perspectiva teórica, se ha introducido y estudiado el SSIM continuo (cSSIM) [15] en el contexto de la interpolación de funciones de base radial .
Otras modificaciones simples
La métrica de correlación cruzada r * se basa en las métricas de varianza de SSIM. Se define como r * ( x , y ) =σ xy/σ x σ ycuando σ x σ y ≠ 0 , 1 cuando ambas desviaciones estándar son cero y 0 cuando solo una es cero. Ha encontrado uso en el análisis de la respuesta humana a fantasmas de detalles de contraste. [dieciséis]
SSIM también se ha utilizado en el gradiente de imágenes, lo que lo convierte en "G-SSIM". G-SSIM es especialmente útil en imágenes borrosas. [17]
Las modificaciones anteriores se pueden combinar. Por ejemplo, 4-Gr * es una combinación de 4-SSIM, G-SSIM y r *. Es capaz de reflejar la preferencia del radiólogo por las imágenes mucho mejor que otras variantes de SSIM probadas. [18]
Solicitud
SSIM tiene aplicaciones en una variedad de problemas diferentes. Algunos ejemplos son:
- Compresión de imágenes: en la compresión de imágenes con pérdida , la información se descarta deliberadamente para reducir el espacio de almacenamiento de imágenes y videos. El MSE se usa típicamente en tales esquemas de compresión. Según sus autores, se sugiere usar SSIM en lugar de MSE para producir mejores resultados para las imágenes descomprimidas. [13]
- Restauración de imágenes: la restauración de imágenes se centra en resolver el problema dónde es la imagen borrosa que se debe restaurar, es el kernel borroso, es el ruido aditivo y es la imagen original que deseamos recuperar. El filtro tradicional que se utiliza para solucionar este problema es el filtro Wiener. Sin embargo, el diseño del filtro Wiener se basa en el MSE. Se afirma que el uso de una variante SSIM, específicamente Stat-SSIM, produce mejores resultados visuales, según los autores del algoritmo. [13]
- Reconocimiento de patrones: dado que SSIM imita aspectos de la percepción humana, podría usarse para reconocer patrones. Cuando se enfrentan a problemas como el escalado, la traducción y la rotación de la imagen, los autores del algoritmo afirman que es mejor usar CW-SSIM, [19] que es insensible a estas variaciones y se puede aplicar directamente mediante la coincidencia de plantillas sin usar ninguna muestra de entrenamiento. Dado que los enfoques de reconocimiento de patrones basados en datos pueden producir un mejor rendimiento cuando hay una gran cantidad de datos disponibles para entrenamiento, los autores sugieren usar CW-SSIM en enfoques basados en datos. [19]
Comparación de rendimiento
Debido a su popularidad, SSIM a menudo se compara con otras métricas, incluidas métricas más simples como MSE y PSNR, y otras métricas de calidad de imagen y video de percepción . Se ha demostrado repetidamente que SSIM supera significativamente a MSE y sus derivados en precisión, incluida la investigación de sus propios autores y otros. [7] [20] [21] [22] [23] [24]
Un artículo de Dosselmann y Yang afirma que el rendimiento del SSIM es "mucho más cercano al del MSE" de lo que se suele suponer. Si bien no discuten la ventaja de SSIM sobre MSE, afirman una dependencia analítica y funcional entre las dos métricas. [8] Según su investigación, se ha encontrado que SSIM correlaciona, así como los métodos basados en MSE, en bases de datos subjetivas distintas de las bases de datos de los creadores de SSIM. Como ejemplo, citan a Reibman y Poole, quienes encontraron que MSE superó a SSIM en una base de datos que contiene video con pérdida de paquetes. [25] En otro documento, se identificó un vínculo analítico entre PSNR y SSIM. [26]
Ver también
- Error medio cuadrado
- Relación señal-ruido pico
- Calidad de video
Referencias
- ^ Wang, Zhou; Bovik, AC; Sheikh, HR; Simoncelli, EP (1 de abril de 2004). "Evaluación de la calidad de la imagen: de la visibilidad del error a la similitud estructural". Transacciones IEEE sobre procesamiento de imágenes . 13 (4): 600–612. Código Bibliográfico : 2004ITIP ... 13..600W . CiteSeerX 10.1.1.2.5689 . doi : 10.1109 / TIP.2003.819861 . ISSN 1057-7149 . PMID 15376593 .
- ^ "Google Académico" . scholar.google.com . Consultado el 4 de julio de 2019 .
- ^ "Sociedad de procesamiento de señales IEEE, premio al mejor artículo" (PDF) .
- ^ a b c d Wang, Z .; Simoncelli, EP; Bovik, AC (1 de noviembre de 2003). Similitud estructural multiescala para la evaluación de la calidad de la imagen . Acta de conferencia de la trigésima séptima conferencia de Asilomar sobre señales, sistemas y computadoras, 2004 . 2 . págs. 1398–1402 Vol.2. CiteSeerX 10.1.1.58.1939 . doi : 10.1109 / ACSSC.2003.1292216 . ISBN 978-0-7803-8104-9.
- ^ a b Brunet, D .; Vass, J .; Vrscay, ER; Wang, Z. (abril de 2012). "Sobre las propiedades matemáticas del índice de similitud estructural" (PDF) . Transacciones IEEE sobre procesamiento de imágenes . 21 (4): 2324–2328. Código Bibliográfico : 2012ITIP ... 21.1488B . doi : 10.1109 / TIP.2011.2173206 . PMID 22042163 .
- ^ a b Wang, Z .; Lu, L .; Bovik, AC (febrero de 2004). "Evaluación de la calidad del video basada en la medición de la distorsión estructural" . Procesamiento de señales: comunicación de imágenes . 19 (2): 121-132. CiteSeerX 10.1.1.2.6330 . doi : 10.1016 / S0923-5965 (03) 00076-6 .
- ^ a b c Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (14 de febrero de 2016). "Aplicabilidad de las métricas objetivas existentes de la calidad de percepción para la transmisión de video adaptativa" (PDF) . Imágenes electrónicas . 2016 (13): 1–7. doi : 10.2352 / issn.2470-1173.2016.13.iqsp-206 .
- ^ a b Dosselmann, Richard; Yang, Xue Dong (6 de noviembre de 2009). "Una evaluación completa del índice de similitud estructural". Procesamiento de señal, imagen y video . 5 (1): 81–91. doi : 10.1007 / s11760-009-0144-1 . ISSN 1863-1703 .
- ^ Li, Chaofeng; Bovik, Alan Conrad (1 de enero de 2010). "Evaluación de la calidad de video ponderada por contenido utilizando un modelo de imagen de tres componentes". Revista de imágenes electrónicas . 19 (1): 011003–011003–9. Código bibliográfico : 2010JEI .... 19a1003L . doi : 10.1117 / 1.3267087 . ISSN 1017-9909 .
- ^ Li, Chaofeng; Bovik, Alan C. (agosto de 2010). "Índice de similitud estructural dividido por contenido para la evaluación de la calidad de la imagen". Procesamiento de señales: comunicación de imágenes . 25 (7): 517–526. doi : 10.1016 / j.image.2010.03.004 .
- ^ "Redirigir página" . www.compression.ru .
- ^ Wang, Z .; Li, Q. (diciembre de 2007). "Evaluación de la calidad del video utilizando un modelo estadístico de percepción de la velocidad visual humana" (PDF) . Revista de la Sociedad Americana de Óptica A . 24 (12): B61 – B69. Código Bibliográfico : 2007JOSAA..24 ... 61W . CiteSeerX 10.1.1.113.4177 . doi : 10.1364 / JOSAA.24.000B61 . PMID 18059915 .
- ^ a b c Zhou Wang; Bovik, AC (enero de 2009). "Error cuadrático medio: ¿te encanta o lo dejas? Una nueva mirada a las medidas de fidelidad de la señal". Revista de procesamiento de señales IEEE . 26 (1): 98-117. Código Bibliográfico : 2009ISPM ... 26 ... 98W . doi : 10.1109 / msp.2008.930649 . ISSN 1053-5888 .
- ^ Rehman, A .; Zeng, K .; Wang, Zhou (febrero de 2015). Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (eds.). "Muestre la evaluación de la calidad de la experiencia de video adaptada al dispositivo" (PDF) . IS & T-SPIE Imágenes electrónicas, visión humana e imágenes electrónicas XX . Visión humana e imágenes electrónicas XX. 9394 : 939406. Código Bibliográfico : 2015SPIE.9394E..06R . doi : 10.1117 / 12.2077917 .
- ^ Marchetti, F. (enero de 2021). "Tasa de convergencia en términos del índice SSIM continuo (cSSIM) en interpolación RBF" (PDF) . Dolom. Res. Notas Aprox . 14 : 27–32.
- ^ Prieto, Gabriel; Guibelalde, Eduardo; Chevalier, Margarita; Turrero, Agustín (21 de julio de 2011). "Uso del componente de correlación cruzada de la métrica de similitud estructural multiescala (métrica R *) para la evaluación de imágenes médicas: métrica R * para la evaluación de imágenes médicas". Física Médica . 38 (8): 4512–4517. doi : 10.1118 / 1.3605634 .
- ^ Chen, Guan-hao; Yang, Chun-ling; Xie, Sheng-li (octubre de 2006). "Similitud estructural basada en gradientes para la evaluación de la calidad de la imagen". Conferencia internacional sobre procesamiento de imágenes de 2006 : 2929–2932. doi : 10.1109 / ICIP.2006.313132 .
- ^ Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-León, Nieves; del Castillo, Eduardo Guibelalde (26 de julio de 2017). "Familia de índice de similitud estructural para la evaluación de la calidad de imagen en imágenes radiológicas" . Revista de imágenes médicas . 4 (3): 035501. doi : 10.1117 / 1.JMI.4.3.035501 . PMC 5527267 . PMID 28924574 .
- ^ a b Gao, Y .; Rehman, A .; Wang, Z. (septiembre de 2011). Clasificación de imágenes basada en CW-SSIM (PDF) . Conferencia internacional IEEE sobre procesamiento de imágenes (ICIP11).
- ^ Zhang, Lin; Zhang, Lei; Mou, X .; Zhang, D. (septiembre de 2012). Una evaluación completa de los algoritmos de evaluación de la calidad de la imagen de referencia completa . 2012 19ª Conferencia Internacional IEEE sobre procesamiento de imágenes . págs. 1477-1480. CiteSeerX 10.1.1.476.2566 . doi : 10.1109 / icip.2012.6467150 . ISBN 978-1-4673-2533-2.
- ^ Zhou Wang; Wang, Zhou; Li, Qiang (mayo de 2011). "Ponderación del contenido de información para la evaluación de la calidad de la imagen perceptual". Transacciones IEEE sobre procesamiento de imágenes . 20 (5): 1185-1198. Código bibliográfico : 2011ITIP ... 20.1185W . doi : 10.1109 / tip.2010.2092435 . PMID 21078577 .
- ^ Channappayya, SS; Bovik, AC; Caramanis, C .; Heath, RW (marzo de 2008). Restauración de imagen lineal óptima SSIM . 2008 IEEE International Conference on Acustics, Speech and Signal Processing . págs. 765–768. CiteSeerX 10.1.1.152.7952 . doi : 10.1109 / icassp.2008.4517722 . ISBN 978-1-4244-1483-3.
- ^ Gore, Akshay; Gupta, Savita (1 de febrero de 2015). "Métricas de calidad de imagen de referencia completa para imágenes comprimidas JPEG". AEU - Revista Internacional de Electrónica y Comunicaciones . 69 (2): 604–608. doi : 10.1016 / j.aeue.2014.09.002 .
- ^ Wang, Z .; Simoncelli, EP (septiembre de 2008). "Competencia de máxima diferenciación (MAD): una metodología para comparar modelos computacionales de cantidades perceptuales" (PDF) . Revista de visión . 8 (12): 8.1-13. doi : 10.1167 / 8.12.8 . PMC 4143340 . PMID 18831621 .
- ^ Reibman, AR; Poole, D. (septiembre de 2007). Caracterización de deterioros por pérdida de paquetes en video comprimido . 2007 Conferencia internacional IEEE sobre procesamiento de imágenes . 5 . págs. V - 77 – V - 80. CiteSeerX 10.1.1.159.5710 . doi : 10.1109 / icip.2007.4379769 . ISBN 978-1-4244-1436-9.
- ^ Hore, A .; Ziou, D. (agosto de 2010). Métricas de calidad de imagen: PSNR vs. SSIM . 2010 20ª Conferencia Internacional sobre Reconocimiento de Patrones . págs. 2366-2369. doi : 10.1109 / icpr.2010.579 . ISBN 978-1-4244-7542-1.
enlaces externos
- Página de inicio
- Implementación de óxido
- Implementación de C / C ++
- Implementación DSSIM C ++
- Implementación de C # de Chris Lomont
- Implementación de qpsnr (C ++ multiproceso)
- Implementación en software VQMT
- Implementación en Python
- "Misterio detrás de las medidas de similitud MSE y SSIM", Gintautas Palubinskas, 2014