Clasificadores en cascada


La cascada es un caso particular de aprendizaje por conjuntos basado en la concatenación de varios clasificadores , utilizando toda la información recopilada de la salida de un clasificador dado como información adicional para el siguiente clasificador en la cascada. A diferencia de los conjuntos de votación o apilamiento, que son sistemas multiexpertos, la cascada es de varias etapas.

Los clasificadores en cascada se entrenan con varios cientos de vistas de muestra "positivas" de un objeto particular e imágenes "negativas" arbitrarias del mismo tamaño. Una vez entrenado el clasificador, se puede aplicar a una región de una imagen y detectar el objeto en cuestión. Para buscar el objeto en todo el marco, la ventana de búsqueda se puede mover a través de la imagen y verificar cada ubicación con el clasificador. Este proceso se utiliza con mayor frecuencia en el procesamiento de imágenes para la detección y el seguimiento de objetos, principalmente la detección y el reconocimiento facial .

El primer clasificador en cascada fue el detector de rostros de Viola y Jones (2001) . El requisito de este clasificador era ser rápido para poder implementarse en CPU de bajo consumo , como cámaras y teléfonos.

Se puede ver en esta descripción que el clasificador no aceptará caras que estén al revés (las cejas no están en la posición correcta) o al costado de la cara (la nariz ya no está en el centro y las sombras en el costado de puede faltar la nariz). Se deben entrenar clasificadores en cascada separados para cada rotación que no esté en el plano de la imagen (lado de la cara) y tendrán que volver a entrenarse o ejecutar en las características giradas para cada rotación que esté en el plano de la imagen (boca abajo o inclinada hacia la lado). La escala no es un problema, ya que las características se pueden escalar (el píxel central, los píxeles izquierdos y los píxeles derechos tienen una dimensión solo relativa al rectángulo examinado). En cascadas recientes, el valor de píxel de alguna parte de un rectángulo en comparación con otro ha sido reemplazado por ondas de Haar .

Por lo tanto, el procedimiento de capacitación para una etapa es tener muchos estudiantes débiles (operadores simples de diferencia de píxeles), capacitarlos como grupo (aumentar su peso si dan el resultado correcto), pero tener en cuenta que solo hay unos pocos estudiantes débiles activos para que el cálculo el tiempo sigue siendo bajo.

El primer detector de Viola & Jones tenía 38 etapas, con 1 característica en la primera etapa, luego 10, 25, 25, 50 en las siguientes cinco etapas, para un total de 6000 características. Las primeras etapas eliminan rápidamente los rectángulos no deseados para evitar pagar los costos computacionales de las etapas siguientes, de modo que el tiempo computacional se dedica a analizar en profundidad la parte de la imagen que tiene una alta probabilidad de contener el objeto.