Bosque aleatorio

Los bosques aleatorios o los bosques de decisiones aleatorias son un método de aprendizaje conjunto para la clasificación , la regresión y otras tareas que operan mediante la construcción de una multitud de árboles de decisión en el momento del entrenamiento. Para las tareas de clasificación, la salida del bosque aleatorio es la clase seleccionada por la mayoría de los árboles. Para tareas de regresión, se devuelve la predicción media o promedio de los árboles individuales. ^[1]^[2] Los bosques de decisión aleatorios corrigen el hábito de los árboles de decisión de sobreajustarse a su conjunto de entrenamiento . ^[3]^{: 587–588} Los bosques aleatorios generalmente superan a los árboles de decisión, pero su precisión es menor que la de los árboles potenciados por gradiente. Sin embargo, las características de los datos pueden afectar su rendimiento. ^[4]^[5]

El primer algoritmo para bosques de decisión aleatoria fue creado en 1995 por Tin Kam Ho ^[1] utilizando el método del subespacio aleatorio , ^[2] que, en la formulación de Ho, es una forma de implementar el enfoque de clasificación de "discriminación estocástica" propuesto por Eugene Kleinberg. . ^[6]^[7]^[8]

Leo Breiman ^[9] y Adele Cutler , ^[10] desarrollaron una extensión del algoritmo , quienes registraron ^[11] "Random Forests" como marca comercial en 2006 (a partir de 2019 ^[actualizar], propiedad de Minitab, Inc. ). ^[12] La extensión combina la idea de "empaquetado" de Breiman y la selección aleatoria de características, introducida primero por Ho ^[1] y luego de forma independiente por Amit y Geman ^[13] para construir una colección de árboles de decisión con varianza controlada.

Los bosques aleatorios se utilizan con frecuencia como modelos de "caja negra" en las empresas, ya que generan predicciones razonables en una amplia gama de datos y requieren poca configuración.

El método general de los bosques de decisión aleatoria fue propuesto por primera vez por Ho en 1995. ^[1] Ho estableció que los bosques de árboles que se dividen con hiperplanos oblicuos pueden ganar precisión a medida que crecen sin sufrir sobreentrenamiento, siempre que los bosques se restrinjan al azar para que sean sensibles. solo a las dimensiones de características seleccionadas . Un trabajo posterior en la misma línea ^[2]concluyó que otros métodos de división se comportan de manera similar, siempre que se les obligue aleatoriamente a ser insensibles a algunas dimensiones de características. Tenga en cuenta que esta observación de un clasificador más complejo (un bosque más grande) que se vuelve más preciso casi monótonamente contrasta fuertemente con la creencia común de que la complejidad de un clasificador solo puede crecer hasta un cierto nivel de precisión antes de verse afectada por el sobreajuste. La explicación de la resistencia del método del bosque al sobreentrenamiento se puede encontrar en la teoría de discriminación estocástica de Kleinberg. ^[6]^[7]^[8]

El desarrollo inicial de la noción de bosques aleatorios de Breiman estuvo influenciado por el trabajo de Amit y Geman ^[13], quienes introdujeron la idea de buscar en un subconjunto aleatorio de las decisiones disponibles al dividir un nodo, en el contexto de hacer crecer un solo árbol . La idea de selección aleatoria de subespacios de Ho ^[2] también influyó en el diseño de bosques aleatorios. En este método, se cultiva un bosque de árboles y se introduce la variación entre los árboles al proyectar los datos de entrenamiento en un subespacio elegido al azar.antes de encajar cada árbol o cada nodo. Finalmente, Dietterich introdujo por primera vez la idea de la optimización de nodos aleatorios, donde la decisión en cada nodo se selecciona mediante un procedimiento aleatorio, en lugar de una optimización determinista. ^[14]

Diagrama de un bosque de decisiones aleatorias