Marco de detección de objetos Viola-Jones


El marco de detección de objetos Viola – Jones es un marco de detección de objetos propuesto en 2001 por Paul Viola y Michael Jones . [1] [2] Aunque se puede entrenar para detectar una variedad de clases de objetos, fue motivado principalmente por el problema de la detección de rostros .

El problema a resolver es la detección de rostros en una imagen. Un humano puede hacer esto fácilmente, pero una computadora necesita instrucciones y restricciones precisas. Para hacer la tarea más manejable, Viola-Jones requiere caras verticales verticales con vista completa. Por lo tanto, para ser detectado, todo el rostro debe apuntar hacia la cámara y no debe inclinarse hacia ningún lado. Si bien parece que estas restricciones podrían disminuir un poco la utilidad del algoritmo, debido a que el paso de detección suele ir seguido de un paso de reconocimiento, en la práctica estos límites en la pose son bastante aceptables.

Las características buscadas por el marco de detección involucran universalmente las sumas de píxeles de imagen dentro de áreas rectangulares. Como tales, guardan cierta semejanza con las funciones básicas de Haar , que se han utilizado anteriormente en el ámbito de la detección de objetos basada en imágenes. [3] Sin embargo, dado que las características utilizadas por Viola y Jones se basan en más de un área rectangular, generalmente son más complejas. La figura de la derecha ilustra los cuatro tipos diferentes de características que se utilizan en el marco. El valor de cualquier característica dada es la suma de los píxeles dentro de los rectángulos claros restados de la suma de los píxeles dentro de los rectángulos sombreados. Las características rectangulares de este tipo son primitivas en comparación con alternativas como los filtros orientables.. Aunque son sensibles a las características verticales y horizontales, su retroalimentación es considerablemente más burda.

Todos los rostros humanos comparten algunas propiedades similares. Estas regularidades se pueden combinar con las funciones de Haar .

Las cuatro características combinadas por este algoritmo se buscan luego en la imagen de una cara (que se muestra a la derecha).

Una representación de imagen llamada imagen integral evalúa las características rectangulares en tiempo constante , lo que les da una ventaja de velocidad considerable sobre las características alternativas más sofisticadas. Debido a que el área rectangular de cada entidad siempre es adyacente a al menos otro rectángulo, se deduce que cualquier entidad de dos rectángulos se puede calcular en seis referencias de matriz, cualquier entidad de tres rectángulos en ocho y cualquier entidad de cuatro rectángulos en nueve.


Características de rectángulo de ejemplo que se muestran en relación con la ventana de detección circundante
Haar Feature que se parece al puente de la nariz se aplica en la cara
Haar Feature que se ve similar a la región de los ojos, que es más oscura que la parte superior de las mejillas, se aplica a la cara.
3er y 4to tipo de característica Haar