La pirámide , o representación piramidal , es un tipo de representación de señales de múltiples escalas desarrollada por las comunidades de procesamiento de señales , procesamiento de imágenes y visión por computadora , en las que una señal o una imagen se somete a suavizado y submuestreo repetidos . La representación piramidal es un predecesor de la representación del espacio de escala y el análisis de múltiples resoluciones .
Generación de pirámides
Hay dos tipos principales de pirámides: paso bajo y paso banda.
Una pirámide de paso bajo se hace suavizando la imagen con un filtro de suavizado apropiado y luego submuestreando la imagen suavizada, generalmente por un factor de 2 a lo largo de cada dirección de coordenadas. A continuación, la imagen resultante se somete al mismo procedimiento y el ciclo se repite varias veces. Cada ciclo de este proceso da como resultado una imagen más pequeña con un mayor suavizado, pero con una menor densidad de muestreo espacial (es decir, una menor resolución de la imagen). Si se ilustra gráficamente, toda la representación de múltiples escalas se verá como una pirámide, con la imagen original en la parte inferior y la imagen más pequeña resultante de cada ciclo apilada una encima de la otra.
Se crea una pirámide de paso de banda formando la diferencia entre imágenes en niveles adyacentes en la pirámide y realizando la interpolación de imágenes entre niveles adyacentes de resolución, para permitir el cálculo de diferencias en píxeles. [1]
Núcleos de generación piramidal
Se ha propuesto una variedad de diferentes granos de suavizado para generar pirámides. [2] [3] [4] [5] [6] [7] Entre las sugerencias que se han dado, los núcleos binomiales que surgen de los coeficientes binomiales se destacan como una clase particularmente útil y teóricamente bien fundada. [3] [8] [9] [10] [11] Por lo tanto, dada una imagen bidimensional, podemos aplicar el filtro binomial (normalizado) (1/4, 1/2, 1/4) típicamente dos veces o más a lo largo de cada dimensión espacial y luego submuestrear la imagen por un factor de dos. Esta operación puede continuar tantas veces como se desee, lo que conduce a una representación multiescala compacta y eficiente. Si está motivado por requisitos específicos, también se pueden generar niveles de escala intermedia donde la etapa de submuestreo a veces se deja fuera, lo que lleva a una pirámide híbrida o sobremuestreada . [10] Con la creciente eficiencia computacional de las CPU disponibles en la actualidad, en algunas situaciones también es factible utilizar filtros gaussianos más amplios como núcleos de suavizado en los pasos de generación de la pirámide.
Pirámide gaussiana
En una pirámide gaussiana, las imágenes posteriores se ponderan utilizando un promedio gaussiano ( desenfoque gaussiano ) y se reducen. Cada píxel que contiene un promedio local corresponde a un píxel vecino en un nivel inferior de la pirámide. Esta técnica se utiliza especialmente en la síntesis de texturas .
Pirámide laplaciana
Una pirámide laplaciana es muy similar a una pirámide gaussiana pero guarda la imagen de diferencia de las versiones borrosas entre cada nivel. Solo el nivel más pequeño no es una imagen de diferencia para permitir la reconstrucción de la imagen de alta resolución utilizando las imágenes de diferencia en niveles más altos. Esta técnica se puede utilizar en la compresión de imágenes . [12]
Pirámide orientable
Una pirámide orientable, desarrollada por Simoncelli y otros, es una implementación de un banco de filtros de paso de banda de múltiples escalas y orientaciones múltiples que se utiliza para aplicaciones que incluyen compresión de imágenes , síntesis de texturas y reconocimiento de objetos . Se puede considerar como una versión de orientación selectiva de una pirámide laplaciana, en la que se utiliza un banco de filtros orientables en cada nivel de la pirámide en lugar de un solo filtro laplaciano o gaussiano . [13] [14] [15]
Aplicaciones de las pirámides
Representación alternativa
En los primeros días de la visión por computadora, las pirámides se usaban como el tipo principal de representación de múltiples escalas para calcular características de imágenes de múltiples escalas a partir de datos de imágenes del mundo real. Las técnicas más recientes incluyen la representación del espacio de escala , que ha sido popular entre algunos investigadores debido a su fundamento teórico, la capacidad de desacoplar la etapa de submuestreo de la representación de múltiples escalas, las herramientas más poderosas para el análisis teórico, así como la capacidad de calcular una representación a cualquier escala deseada, evitando así los problemas algorítmicos de relacionar representaciones de imágenes en diferentes resoluciones. Sin embargo, las pirámides todavía se utilizan con frecuencia para expresar aproximaciones computacionalmente eficientes a la representación del espacio de escala . [10] [16] [17]
Manipulación de detalles
Las pirámides de imágenes laplacianas basadas en el filtro bilateral proporcionan un buen marco para la mejora y manipulación de los detalles de la imagen. [ cita requerida ] Las imágenes de diferencia entre cada capa se modifican para exagerar o reducir los detalles a diferentes escalas en una imagen.
Algunos formatos de archivo de compresión de imágenes utilizan el algoritmo Adam7 o alguna otra técnica de entrelazado . Estos pueden verse como una especie de pirámide de imágenes. Debido a que esos formatos de archivo almacenan primero las características "a gran escala" y los detalles detallados más adelante en el archivo, un visor en particular que muestre una pequeña "miniatura" o en una pantalla pequeña puede descargar rápidamente la imagen suficiente para mostrarla en los píxeles disponibles, por lo que un archivo puede admitir muchas resoluciones de visor, en lugar de tener que almacenar o generar un archivo diferente para cada resolución.
Ver también
- Mipmap
- Implementación del espacio de escala
- Nivel de detalle
- JPEG 2000 # Representación de resolución múltiple
Referencias
- ^ EH Andelson y CH Anderson y JR Bergen y PJ Burt y JM Ogden. "Métodos piramidales en procesamiento de imágenes" . 1984.
- ^ Burt, PJ (mayo de 1981). "Transformación de filtro rápido para procesamiento de imágenes". Procesamiento de imágenes y gráficos por computadora . 16 : 20–51. doi : 10.1016 / 0146-664X (81) 90092-7 .
- ^ a b Crowley, James L. (noviembre de 1981). "Una representación para información visual" . Universidad Carnegie-Mellon, Instituto de Robótica. tecnología informe CMU-RI-TR-82-07. Cite journal requiere
|journal=
( ayuda ) - ^ Burt, Peter; Adelson, Ted (1983). "La pirámide de Laplacia como un código de imagen compacto" (PDF) . IEEE Trans. Comun . 9 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi : 10.1109 / TCOM.1983.1095851 .
- ^ Crowley, JL; Parker, AC (marzo de 1984). "Una representación de la forma basada en picos y crestas en la diferencia de la transformada de paso bajo". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 6 (2): 156-170. CiteSeerX 10.1.1.161.3102 . doi : 10.1109 / TPAMI.1984.4767500 . PMID 21869180 .
- ^ Crowley, JL; Sanderson, AC (1987). "Representación de resolución múltiple y coincidencia probabilística de forma de escala de grises 2-D" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 9 (1): 113–121. CiteSeerX 10.1.1.1015.9294 . doi : 10.1109 / tpami.1987.4767876 . PMID 21869381 .
- ^ Meer, P .; Baugher, ES; Rosenfeld, A. (1987). "Análisis y síntesis en el dominio de la frecuencia de núcleos generadores de imágenes". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 9 (4): 512–522. doi : 10.1109 / tpami.1987.4767939 . PMID 21869409 .
- ^ Lindeberg, Tony, " Espacio de escala para señales discretas ", PAMI (12), No. 3, marzo de 1990, págs. 234-254.
- ^ Lindeberg, Tony. Teoría del espacio de escala en la visión por computadora , Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (consulte específicamente el Capítulo 2 para obtener una descripción general de las pirámides de imágenes gaussianas y laplacianas y el Capítulo 3 para la teoría sobre los núcleos binomiales generalizados y los núcleos gaussianos discretos)
- ^ a b c Lindeberg, T. y Bretzner, L. Selección de escala en tiempo real en representaciones híbridas multiescala , Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science, volumen 2695, páginas 148-163, 2003.
- ^ Consulte el artículo sobre enfoques multiescala para una breve declaración teórica
- ^ Burt, Peter J .; Adelson, Edward H. (1983). "La pirámide de Laplacia como un código de imagen compacto" (PDF) . Transacciones IEEE sobre comunicaciones . 31 (4): 532–540. CiteSeerX 10.1.1.54.299 . doi : 10.1109 / TCOM.1983.1095851 .
- ^ Simoncelli, Eero. "La pirámide orientable" . cns.nyu.edu.
- ^ Manduchi, Roberto; Perona, Pietro; Tímido, Doug (1997). "Bancos de filtros deformables eficientes" (PDF) . Instituto de Tecnología de California / Universidad de Padua .
También en Manduchi, R .; Perona, P .; Shy, D. (1998). "Bancos de filtros deformables eficientes". Transacciones sobre procesamiento de señales . 46 (4): 1168-1173. Código bibliográfico : 1998ITSP ... 46.1168M . CiteSeerX 10.1.1.5.3102 . doi : 10.1109 / 78.668570 . - ^ Stanley A. Klein; Thom Carney; Lauren Barghout-Stein y Christopher W. Tyler "Siete modelos de enmascaramiento", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (3 de junio de 1997); doi : 10.1117 / 12.274510
- ^ Crowley, J, Riff O. Cálculo rápido de campos receptivos gaussianos normalizados a escala , Proc. Scale-Space'03, Isla de Skye, Escocia, Springer Lecture Notes in Computer Science , volumen 2695, 2003.
- ^ Lowe, DG (2004). "Características de imagen distintivas de puntos clave invariantes de escala" . Revista Internacional de Visión por Computador . 60 (2): 91-110. CiteSeerX 10.1.1.73.2924 . doi : 10.1023 / B: VISI.0000029664.99615.94 .
enlaces externos
- Codificación de imágenes de la pirámide gaussiana-laplaciana : ilustra los métodos de muestreo reducido , muestreo superior y convolución gaussiana
- La pirámide de Gauss : proporciona una breve introducción al procedimiento y cita varias fuentes.
- Pirámide gráfica irregular de Laplacia : la figura 1 de esta página ilustra un ejemplo de la pirámide gaussiana.
- La pirámide de Laplacia como un código de imagen compacto en la presentación de libros electrónicos