Bosque aleatorio

Los bosques aleatorios o los bosques de decisiones aleatorias son un método de aprendizaje conjunto para la clasificación , regresión y otras tareas que opera mediante la construcción de una multitud de árboles de decisión en el momento del entrenamiento. Para las tareas de clasificación, la salida del bosque aleatorio es la clase seleccionada por la mayoría de los árboles. Para las tareas de regresión, se devuelve la predicción media o promedio de los árboles individuales. ^[1]^[2] Los bosques de decisión aleatoria corrigen el hábito de los árboles de decisión de adaptarse en exceso a su conjunto de entrenamiento . ^[3]^{: 587–588} Los bosques aleatorios generalmente superan a los árboles de decisión, pero su precisión es menor que la de los árboles con aumento de gradiente. Sin embargo, las características de los datos pueden afectar su rendimiento. ^[4]^[5]

Diagrama de un bosque de decisiones aleatorias

El primer algoritmo para bosques de decisión aleatoria fue creado en 1995 por Tin Kam Ho ^[1] utilizando el método del subespacio aleatorio , ^[2] que, en la formulación de Ho, es una forma de implementar el enfoque de clasificación de "discriminación estocástica" propuesto por Eugene Kleinberg. . ^[6]^[7]^[8]

Una extensión del algoritmo fue desarrollada por Leo Breiman ^[9] y Adele Cutler , ^[10] quienes registraron ^[11] "Random Forests" como marca comercial en 2006 (a partir de 2019 ^[actualizar], propiedad de Minitab, Inc. ). ^[12] La extensión combina la idea de " ensacado " de Breiman y la selección aleatoria de características, introducida primero por Ho ^[1] y luego de forma independiente por Amit y Geman ^[13] para construir una colección de árboles de decisión con varianza controlada.

Los bosques aleatorios se utilizan con frecuencia como modelos de "caja negra" en las empresas, ya que generan predicciones razonables en una amplia gama de datos y requieren poca configuración.

Historia

El método general de bosques de decisión aleatoria fue propuesto por primera vez por Ho en 1995. ^[1] Ho estableció que los bosques de árboles que se dividen con hiperplanos oblicuos pueden ganar precisión a medida que crecen sin sufrir un sobreentrenamiento, siempre que los bosques estén restringidos aleatoriamente para ser sensibles. solo a las dimensiones de características seleccionadas . Un trabajo posterior en la misma línea ^[2] concluyó que otros métodos de división se comportan de manera similar, siempre que se los fuerce aleatoriamente a ser insensibles a algunas dimensiones de características. Tenga en cuenta que esta observación de un clasificador más complejo (un bosque más grande) que se vuelve más preciso de manera casi monótona contrasta fuertemente con la creencia común de que la complejidad de un clasificador solo puede crecer hasta un cierto nivel de precisión antes de verse afectada por el sobreajuste. La explicación de la resistencia del método forestal al sobreentrenamiento se puede encontrar en la teoría de la discriminación estocástica de Kleinberg. ^[6]^[7]^[8]

El desarrollo temprano de la noción de bosques aleatorios de Breiman fue influenciado por el trabajo de Amit y Geman ^[13] quienes introdujeron la idea de buscar en un subconjunto aleatorio de las decisiones disponibles al dividir un nodo, en el contexto de hacer crecer un solo árbol . La idea de la selección aleatoria del subespacio de Ho ^[2] también influyó en el diseño de bosques aleatorios. En este método se cultiva un bosque de árboles y se introduce la variación entre los árboles proyectando los datos de entrenamiento en un subespacio elegido al azar antes de ajustar cada árbol o cada nodo. Finalmente, la idea de la optimización de nodos aleatorios, donde la decisión en cada nodo se selecciona mediante un procedimiento aleatorio, en lugar de una optimización determinista, fue introducida por primera vez por Dietterich. ^[14]

Leo Breiman realizó la introducción adecuada de bosques aleatorios en un artículo . ^[9] Este artículo describe un método para construir un bosque de árboles no correlacionados usando un procedimiento similar a CART , combinado con optimización de nodos aleatorios y embolsado . Además, este artículo combina varios ingredientes, algunos previamente conocidos y otros novedosos, que forman la base de la práctica moderna de los bosques aleatorios, en particular:

Usar el error fuera de bolsa como una estimación del error de generalización .
Medición de la importancia de las variables mediante permutación.

El informe también ofrece el primer resultado teórico para bosques aleatorios en forma de límite en el error de generalización que depende de la fuerza de los árboles en el bosque y su correlación .

Algoritmo

Preliminares: aprendizaje del árbol de decisiones

Los árboles de decisión son un método popular para varias tareas de aprendizaje automático. El aprendizaje de árboles "se acerca [s] más a cumplir con los requisitos para servir como un procedimiento estándar para la minería de datos", dicen Hastie et al. , "debido a que es invariante en el escalado y varias otras transformaciones de los valores de características, es resistente a la inclusión de características irrelevantes y produce modelos inspeccionables. Sin embargo, rara vez son precisos". ^[3]^{: 352}

En particular, los árboles que crecen a mucha profundidad tienden a aprender patrones muy irregulares: se sobreajustan a sus conjuntos de entrenamiento, es decir, tienen un sesgo bajo, pero una varianza muy alta . Los bosques aleatorios son una forma de promediar varios árboles de decisión profundos, entrenados en diferentes partes del mismo conjunto de entrenamiento, con el objetivo de reducir la varianza. ^[3]^{: 587–588} Esto se produce a expensas de un pequeño aumento en el sesgo y una cierta pérdida de interpretabilidad, pero en general aumenta en gran medida el rendimiento en el modelo final.

Los bosques son como la unión de los esfuerzos del algoritmo del árbol de decisiones. Tomando el trabajo en equipo de muchos árboles mejorando así el rendimiento de un solo árbol aleatorio. Aunque no es muy similar, los bosques dan los efectos de una validación cruzada de K veces.

Harpillera

El algoritmo de entrenamiento para bosques aleatorios aplica la técnica general de agregación bootstrap , o ensacado, a los aprendices de árboles. Dado un conjunto de entrenamiento $X$ = $x 1$ , ..., $x n$ con respuestas $Y$ = $y 1$ , ..., $y n$ , el ensacado repetido ( B veces) selecciona una muestra aleatoria con reemplazo del conjunto de entrenamiento y ajusta los árboles a estos muestras:

Para

b

= 1, ...,

B

:

Muestra, con reemplazo, $n$ ejemplos de entrenamiento de $X$ , $Y$ ; llamar a estos $X b$ , $Y b$ .
Entrene un árbol de clasificación o regresión $f b$ en $X b$ , $Y b$ .

Después del entrenamiento, se pueden hacer predicciones para muestras invisibles $x '$ promediando las predicciones de todos los árboles de regresión individuales en $x'$ :

{\ Displaystyle {\ hat {f}} = {\ frac {1} {B}} \ sum _ {b = 1} ^ {B} f_ {b} (x ')}

o tomando la mayoría de votos en el caso de árboles de clasificación.

Este procedimiento de arranque conduce a un mejor rendimiento del modelo porque disminuye la varianza del modelo, sin aumentar el sesgo. Esto significa que, si bien las predicciones de un solo árbol son muy sensibles al ruido en su conjunto de entrenamiento, el promedio de muchos árboles no lo es, siempre que los árboles no estén correlacionados. Simplemente entrenar muchos árboles en un solo conjunto de entrenamiento daría árboles fuertemente correlacionados (o incluso el mismo árbol muchas veces, si el algoritmo de entrenamiento es determinista); El muestreo bootstrap es una forma de descorrelacionar los árboles mostrándoles diferentes conjuntos de entrenamiento.

Además, se puede hacer una estimación de la incertidumbre de la predicción como la desviación estándar de las predicciones de todos los árboles de regresión individuales en $x '$ :

{\ Displaystyle \ sigma = {\ sqrt {\ frac {\ sum _ {b = 1} ^ {B} (f_ {b} (x ') - {\ hat {f}}) ^ {2}} {B -1}}}.}

El número de muestras / árboles, $B$ , es un parámetro libre. Por lo general, se utilizan de unos cientos a varios miles de árboles, según el tamaño y la naturaleza del conjunto de entrenamiento. Se puede encontrar un número óptimo de árboles $B$ mediante la validación cruzada , o al observar el error fuera de la bolsa : el error de predicción medio en cada muestra de entrenamiento $x i$ , usando solo los árboles que no tenían $x i$ en su muestra de arranque . ^[15] El error de entrenamiento y prueba tiende a estabilizarse después de que algunos árboles se han adaptado.

Del ensacado a los bosques aleatorios

El procedimiento anterior describe el algoritmo de ensacado original para árboles. Los bosques aleatorios también incluyen otro tipo de esquema de ensacado: utilizan un algoritmo de aprendizaje de árbol modificado que selecciona, en cada división candidata en el proceso de aprendizaje, un subconjunto aleatorio de características . Este proceso a veces se denomina "empaquetado de características". La razón para hacer esto es la correlación de los árboles en una muestra de bootstrap ordinaria: si una o algunas características son predictores muy fuertes para la variable de respuesta (salida objetivo), estas características se seleccionarán en muchos de los árboles $B$ , lo que provocará que correlacionarse. Ho proporciona un análisis de cómo el ensacado y la proyección subespacial aleatoria contribuyen a las ganancias de precisión en diferentes condiciones. ^[dieciséis]

Normalmente, para un problema de clasificación con características $p$ , se utilizan características √ $p$ (redondeadas hacia abajo) en cada división. ^[3]^{: 592} Para problemas de regresión, los inventores recomiendan $p / 3$ (redondeado hacia abajo) con un tamaño de nodo mínimo de 5 como valor predeterminado. ^[3]^{: 592} En la práctica, los mejores valores para estos parámetros dependerán del problema y deben tratarse como parámetros de ajuste. ^[3]^{: 592}

Árboles extra

Agregar un paso más de aleatorización produce árboles extremadamente aleatorizados , o ExtraTrees. Si bien son similares a los bosques aleatorios ordinarios en el sentido de que son un conjunto de árboles individuales, existen dos diferencias principales: primero, cada árbol se entrena utilizando la muestra de aprendizaje completa (en lugar de una muestra de arranque), y segundo, la división de arriba hacia abajo en el aprendiz del árbol es aleatorio. En lugar de calcular el punto de corte óptimo localmente para cada característica bajo consideración (basado, por ejemplo, en la ganancia de información o la impureza de Gini ), se selecciona un punto de corte aleatorio . Este valor se selecciona de una distribución uniforme dentro del rango empírico de la característica (en el conjunto de entrenamiento del árbol). Luego, de todas las divisiones generadas aleatoriamente, se elige la división que produce la puntuación más alta para dividir el nodo. De manera similar a los bosques aleatorios ordinarios, se puede especificar el número de características seleccionadas al azar que se considerarán en cada nodo. Los valores predeterminados para este parámetro son ${\ Displaystyle {\ sqrt {p}}}$ para clasificación y ${\ Displaystyle p}$ para la regresión, donde ${\ Displaystyle p}$ es el número de funciones del modelo. ^[17]

Propiedades

Importancia variable

Los bosques aleatorios se pueden utilizar para clasificar la importancia de las variables en un problema de regresión o clasificación de forma natural. La siguiente técnica fue descrita en el artículo original de Breiman ^[9] y está implementada en el paquete R randomForest . ^[10]

El primer paso para medir la importancia de la variable en un conjunto de datos ${\ Displaystyle {\ mathcal {D}} _ {n} = \ {(X_ {i}, Y_ {i}) \} _ {i = 1} ^ {n}}$ es ajustar un bosque aleatorio a los datos. Durante el proceso de ajuste, el error de salida de la bolsa para cada punto de datos se registra y se promedia en el bosque (los errores en un conjunto de prueba independiente se pueden sustituir si no se utiliza la bolsa durante el entrenamiento).

Para medir la importancia de la ${\ Displaystyle j}$ -th feature después del entrenamiento, los valores de la ${\ Displaystyle j}$ -ésima característica se permuta entre los datos de entrenamiento y el error fuera de la bolsa se calcula nuevamente en este conjunto de datos perturbados. La puntuación de importancia para el ${\ Displaystyle j}$ -th característica se calcula promediando la diferencia en el error fuera de la bolsa antes y después de la permutación en todos los árboles. La puntuación se normaliza mediante la desviación estándar de estas diferencias.

Las características que producen valores grandes para esta puntuación se clasifican como más importantes que las características que producen valores pequeños. La definición estadística de la medida de importancia variable fue dada y analizada por Zhu et al. ^[18]

Este método para determinar la importancia de las variables tiene algunos inconvenientes. Para los datos que incluyen variables categóricas con diferente número de niveles, los bosques aleatorios están sesgados a favor de aquellos atributos con más niveles. Se pueden utilizar métodos como las permutaciones parciales ^[19]^[20]^[4] y el crecimiento de árboles insesgados ^[21]^[22] para resolver el problema. Si los datos contienen grupos de características correlacionadas de relevancia similar para el resultado, los grupos más pequeños se ven favorecidos sobre los grupos más grandes. ^[23]

Relación con los vecinos más cercanos

Lin y Jeon señalaron en 2002 una relación entre bosques aleatorios y el algoritmo k -vecino más cercano ( $k$ -NN). ^[24] Resulta que ambos pueden verse como los llamados esquemas de vecindarios ponderados . Estos son modelos creados a partir de un conjunto de entrenamiento. ${\ Displaystyle \ {(x_ {i}, y_ {i}) \} _ {i = 1} ^ {n}}$ que hacen predicciones ${\ Displaystyle {\ hat {y}}}$ para nuevos puntos $x '$ mirando la "vecindad" del punto, formalizado por una función de ponderación $W$ :

{\ Displaystyle {\ hat {y}} = \ sum _ {i = 1} ^ {n} W (x_ {i}, x ') \, y_ {i}.}

Aquí, ${\ Displaystyle W (x_ {i}, x ')}$ es el peso no negativo del $i$ 'ésimo punto de entrenamiento en relación con el nuevo punto $x'$ en el mismo árbol. Para cualquier $x '$ particular , los pesos de los puntos ${\ Displaystyle x_ {i}}$ debe sumar uno. Las funciones de peso se dan de la siguiente manera:

En $k$ -NN, los pesos son ${\ Displaystyle W (x_ {i}, x ') = {\ frac {1} {k}}}$ si $x i$ es uno de los $k$ puntos más cercanos a $x '$ , y cero en caso contrario.
En un arbol, ${\ Displaystyle W (x_ {i}, x ') = {\ frac {1} {k'}}}$ si $x i$ es uno de los $k '$ puntos en la misma hoja que $x'$ , y cero en caso contrario.

Dado que un bosque promedia las predicciones de un conjunto de $m$ árboles con funciones de peso individuales ${\ Displaystyle W_ {j}}$ , sus predicciones son

{\ Displaystyle {\ hat {y}} = {\ frac {1} {m}} \ sum _ {j = 1} ^ {m} \ sum _ {i = 1} ^ {n} W_ {j} ( x_ {i}, x ') \, y_ {i} = \ sum _ {i = 1} ^ {n} \ left ({\ frac {1} {m}} \ sum _ {j = 1} ^ { m} W_ {j} (x_ {i}, x ') \ derecha) \, y_ {i}.}

Esto muestra que todo el bosque es nuevamente un esquema de vecindario ponderado, con pesos que promedian los de los árboles individuales. Los vecinos de $x '$ en esta interpretación son los puntos ${\ Displaystyle x_ {i}}$ compartiendo la misma hoja en cualquier árbol ${\ Displaystyle j}$ . De esta forma, la vecindad de $x '$ depende de manera compleja de la estructura de los árboles y, por tanto, de la estructura del conjunto de entrenamiento. Lin y Jeon muestran que la forma del vecindario utilizada por un bosque aleatorio se adapta a la importancia local de cada característica. ^[24]

Aprendizaje no supervisado con bosques aleatorios

Como parte de su construcción, los predictores forestales aleatorios conducen naturalmente a una medida de disimilitud entre las observaciones. También se puede definir una medida de disimilitud de bosque aleatoria entre datos no etiquetados: la idea es construir un predictor de bosque aleatorio que distinga los datos "observados" de los datos sintéticos generados adecuadamente. ^[9]^[25] Los datos observados son los datos originales sin etiquetar y los datos sintéticos se extraen de una distribución de referencia. Una disimilitud de bosque aleatoria puede ser atractiva porque maneja muy bien los tipos de variables mixtas, es invariante a las transformaciones monotónicas de las variables de entrada y es robusta a las observaciones periféricas. La disimilitud aleatoria del bosque trata fácilmente con un gran número de variables semicontinuas debido a su selección de variables intrínsecas; por ejemplo, la disimilitud del bosque aleatorio "Addcl 1" pondera la contribución de cada variable de acuerdo con su dependencia de otras variables. La disimilitud de bosque aleatorio se ha utilizado en una variedad de aplicaciones, por ejemplo, para encontrar grupos de pacientes basados en datos de marcadores de tejidos. ^[26]

Variantes

En lugar de árboles de decisión, se han propuesto y evaluado modelos lineales como estimadores de base en bosques aleatorios, en particular, la regresión logística multinomial y los clasificadores ingenuos de Bayes . ^[5]^[27]^[28] En los casos en que la relación entre los predictores y la variable objetivo es lineal, los alumnos básicos pueden tener una precisión igual de alta que el alumno conjunto. ^[29]^[5]

Bosque aleatorio de kernel

En el aprendizaje automático, los bosques aleatorios del kernel establecen la conexión entre los bosques aleatorios y los métodos del kernel . Al modificar ligeramente su definición, los bosques aleatorios se pueden reescribir como métodos del núcleo , que son más interpretables y más fáciles de analizar. ^[30]

Historia

Leo Breiman ^[31] fue la primera persona en notar el vínculo entre el bosque aleatorio y los métodos de kernel . Señaló que los bosques aleatorios que se cultivan utilizando iid vectores aleatorios en la construcción del árbol son equivalentes a un núcleo que actúa sobre el margen real. Lin y Jeon ^[32] establecieron la conexión entre los bosques aleatorios y el vecino más cercano adaptativo, lo que implica que los bosques aleatorios pueden verse como estimaciones del núcleo adaptativo. Davies y Ghahramani ^[33] propusieron Random Forest Kernel y muestran que empíricamente puede superar los métodos de kernel más avanzados. Scornet ^[30] primero definió las estimaciones de KeRF y proporcionó el vínculo explícito entre las estimaciones de KeRF y el bosque aleatorio. También dio expresiones explícitas para núcleos basados en bosque aleatorio centrado ^[34] y bosque aleatorio uniforme, ^[35] dos modelos simplificados de bosque aleatorio. Llamó a estos dos KeRF Centrado KeRF y Uniform KeRF, y demostró límites superiores en sus tasas de consistencia.

Notaciones y definiciones

Preliminares: bosques centrados

El bosque centrado ^[34] es un modelo simplificado para el bosque aleatorio original de Breiman, que selecciona de manera uniforme un atributo entre todos los atributos y realiza divisiones en el centro de la celda a lo largo del atributo preseleccionado. El algoritmo se detiene cuando un árbol de nivel completamente binario ${\ Displaystyle k}$ está construido, donde ${\ Displaystyle k \ in \ mathbb {N}}$ es un parámetro del algoritmo.

Bosque uniforme

Bosque uniforme ^[35] es otro modelo simplificado para el bosque aleatorio original de Breiman, que selecciona uniformemente una característica entre todas las características y realiza divisiones en un punto dibujado uniformemente en el lado de la celda, a lo largo de la característica preseleccionada.

De bosque aleatorio a KeRF

Dada una muestra de entrenamiento ${\ Displaystyle {\ mathcal {D}} _ {n} = \ {(\ mathbf {X} _ {i}, Y_ {i}) \} _ {i = 1} ^ {n}}$ de ${\ Displaystyle [0,1] ^ {p} \ times \ mathbb {R}}$ -Variables aleatorias independientes valoradas distribuidas como el par de prototipos independientes ${\ Displaystyle (\ mathbf {X}, Y)}$ , dónde ${\ Displaystyle \ operatorname {E} [Y ^ {2}] <\ infty}$ . Nuestro objetivo es predecir la respuesta ${\ Displaystyle Y}$ , asociado con la variable aleatoria ${\ Displaystyle \ mathbf {X}}$ , estimando la función de regresión ${\ Displaystyle m (\ mathbf {x}) = \ operatorname {E} [Y \ mid \ mathbf {X} = \ mathbf {x}]}$ . Un bosque de regresión aleatoria es un conjunto de ${\ Displaystyle M}$ árboles de regresión aleatoria. Denotar ${\ Displaystyle m_ {n} (\ mathbf {x}, \ mathbf {\ Theta} _ {j})}$ el valor predicho en el punto ${\ Displaystyle \ mathbf {x}}$ por el ${\ Displaystyle j}$ -th árbol, donde ${\ Displaystyle \ mathbf {\ Theta} _ {1}, \ ldots, \ mathbf {\ Theta} _ {M}}$ son variables aleatorias independientes, distribuidas como una variable aleatoria genérica ${\ Displaystyle \ mathbf {\ Theta}}$ , independiente de la muestra ${\ Displaystyle {\ mathcal {D}} _ {n}}$ . Esta variable aleatoria se puede utilizar para describir la aleatoriedad inducida por la división de nodos y el procedimiento de muestreo para la construcción de árboles. Los árboles se combinan para formar la estimación de bosque finito ${\ Displaystyle m_ {M, n} (\ mathbf {x}, \ Theta _ {1}, \ ldots, \ Theta _ {M}) = {\ frac {1} {M}} \ sum _ {j = 1} ^ {M} m_ {n} (\ mathbf {x}, \ Theta _ {j})}$ . Para árboles de regresión, tenemos ${\ Displaystyle m_ {n} = \ sum _ {i = 1} ^ {n} {\ frac {Y_ {i} \ mathbf {1} _ {\ mathbf {X} _ {i} \ in A_ {n} (\ mathbf {x}, \ Theta _ {j})}} {N_ {n} (\ mathbf {x}, \ Theta _ {j})}}}$ , dónde ${\ Displaystyle A_ {n} (\ mathbf {x}, \ Theta _ {j})}$ es la celda que contiene ${\ Displaystyle \ mathbf {x}}$ , diseñado con aleatoriedad ${\ Displaystyle \ Theta _ {j}}$ y conjunto de datos ${\ Displaystyle {\ mathcal {D}} _ {n}}$ , y ${\ Displaystyle N_ {n} (\ mathbf {x}, \ Theta _ {j}) = \ sum _ {i = 1} ^ {n} \ mathbf {1} _ {\ mathbf {X} _ {i} \ en A_ {n} (\ mathbf {x}, \ Theta _ {j})}}$ .

Por tanto, las estimaciones forestales aleatorias satisfacen, para todos ${\ Displaystyle \ mathbf {x} \ in [0,1] ^ {d}}$ , ${\ Displaystyle m_ {M, n} (\ mathbf {x}, \ Theta _ {1}, \ ldots, \ Theta _ {M}) = {\ frac {1} {M}} \ sum _ {j = 1} ^ {M} \ left (\ sum _ {i = 1} ^ {n} {\ frac {Y_ {i} \ mathbf {1} _ {\ mathbf {X} _ {i} \ in A_ {n } (\ mathbf {x}, \ Theta _ {j})}} {N_ {n} (\ mathbf {x}, \ Theta _ {j})}} \ right)}$ . El bosque de regresión aleatoria tiene dos niveles de promediado, primero sobre las muestras en la celda objetivo de un árbol, luego sobre todos los árboles. Por tanto, las contribuciones de las observaciones que se encuentran en celdas con una alta densidad de puntos de datos son menores que las de las observaciones que pertenecen a celdas menos pobladas. Para mejorar los métodos de bosque aleatorio y compensar la estimación errónea, Scornet ^[30] definió KeRF por

{\ Displaystyle {\ tilde {m}} _ {M, n} (\ mathbf {x}, \ Theta _ {1}, \ ldots, \ Theta _ {M}) = {\ frac {1} {\ sum _ {j = 1} ^ {M} N_ {n} (\ mathbf {x}, \ Theta _ {j})}} \ sum _ {j = 1} ^ {M} \ sum _ {i = 1} ^ {n} Y_ {i} \ mathbf {1} _ {\ mathbf {X} _ {i} \ in A_ {n} (\ mathbf {x}, \ Theta _ {j})},}

que es igual a la media del ${\ Displaystyle Y_ {i}}$ está cayendo en las celdas que contienen ${\ Displaystyle \ mathbf {x}}$ en el bosque. Si definimos la función de conexión del ${\ Displaystyle M}$ bosque finito como ${\ Displaystyle K_ {M, n} (\ mathbf {x}, \ mathbf {z}) = {\ frac {1} {M}} \ sum _ {j = 1} ^ {M} \ mathbf {1} _ {\ mathbf {z} \ en A_ {n} (\ mathbf {x}, \ Theta _ {j})}}$ , es decir, la proporción de células compartidas entre ${\ Displaystyle \ mathbf {x}}$ y ${\ Displaystyle \ mathbf {z}}$ , entonces es casi seguro que tenemos ${\ Displaystyle {\ tilde {m}} _ {M, n} (\ mathbf {x}, \ Theta _ {1}, \ ldots, \ Theta _ {M}) = {\ frac {\ sum _ {i = 1} ^ {n} Y_ {i} K_ {M, n} (\ mathbf {x}, \ mathbf {x} _ {i})} {\ sum _ {\ ell = 1} ^ {n} K_ {M, n} (\ mathbf {x}, \ mathbf {x} _ {\ ell})}}}$ , que define el KeRF.

KeRF centrado

La construcción de KeRF centrado de nivel ${\ Displaystyle k}$ es el mismo que para el bosque centrado, excepto que las predicciones son hechas por ${\ Displaystyle {\ tilde {m}} _ {M, n} (\ mathbf {x}, \ Theta _ {1}, \ ldots, \ Theta _ {M})}$ , la función de kernel correspondiente o la función de conexión es

{\ Displaystyle {\ begin {alineado} K_ {k} ^ {cc} (\ mathbf {x}, \ mathbf {z}) = \ sum _ {k_ {1}, \ ldots, k_ {d}, \ sum _ {j = 1} ^ {d} k_ {j} = k} & {\ frac {k!} {k_ {1}! \ cdots k_ {d}!}} \ left ({\ frac {1} { d}} \ right) ^ {k} \ prod _ {j = 1} ^ {d} \ mathbf {1} _ {\ lceil 2 ^ {k_ {j}} x_ {j} \ rceil = \ lceil 2 ^ {k_ {j}} z_ {j} \ rceil}, \\ & {\ text {para todos}} \ mathbf {x}, \ mathbf {z} \ in [0,1] ^ {d}. \ end {alineado}}}

KeRF uniforme

Uniform KeRF se construye de la misma manera que el bosque uniforme, excepto que las predicciones se realizan mediante ${\ Displaystyle {\ tilde {m}} _ {M, n} (\ mathbf {x}, \ Theta _ {1}, \ ldots, \ Theta _ {M})}$ , la función de kernel correspondiente o la función de conexión es

{\ Displaystyle K_ {k} ^ {uf} (\ mathbf {0}, \ mathbf {x}) = \ sum _ {k_ {1}, \ ldots, k_ {d}, \ sum _ {j = 1} ^ {d} k_ {j} = k} {\ frac {k!} {k_ {1}! \ ldots k_ {d}!}} \ left ({\ frac {1} {d}} \ right) ^ {k} \ prod _ {m = 1} ^ {d} \ left (1- | x_ {m} | \ sum _ {j = 0} ^ {k_ {m} -1} {\ frac {(- \ ln | x_ {m} |) ^ {j}} {j!}} \ right) {\ text {para todos}} \ mathbf {x} \ in [0,1] ^ {d}.}

Propiedades

Relación entre KeRF y bosque aleatorio

Las predicciones dadas por KeRF y bosques aleatorios son cercanas si se controla el número de puntos en cada celda:

Suponga que existen secuencias ${\ Displaystyle (a_ {n}), (b_ {n})}$ tal que, casi con seguridad,
${\ Displaystyle a_ {n} \ leq N_ {n} (\ mathbf {x}, \ Theta) \ leq b_ {n} {\ text {y}} a_ {n} \ leq {\ frac {1} {M }} \ sum _ {m = 1} ^ {M} N_ {n} {\ mathbf {x}, \ Theta _ {m}} \ leq b_ {n}.}$
Entonces casi seguramente,
${\ Displaystyle | m_ {M, n} (\ mathbf {x}) - {\ tilde {m}} _ {M, n} (\ mathbf {x}) | \ leq {\ frac {b_ {n} - a_ {n}} {a_ {n}}} {\ tilde {m}} _ {M, n} (\ mathbf {x}).}$

Relación entre KeRF infinito y bosque aleatorio infinito

Cuando la cantidad de árboles ${\ Displaystyle M}$ va al infinito, entonces tenemos un bosque aleatorio infinito y un KeRF infinito. Sus estimaciones son cercanas si el número de observaciones en cada celda está acotado:

Suponga que existen secuencias ${\ Displaystyle (\ varepsilon _ {n}), (a_ {n}), (b_ {n})}$ tal que, casi seguro
${\ Displaystyle \ operatorname {E} [N_ {n} (\ mathbf {x}, \ Theta)] \ geq 1,}$
${\ Displaystyle \ operatorname {P} [a_ {n} \ leq N_ {n} (\ mathbf {x}, \ Theta) \ leq b_ {n} \ mid {\ mathcal {D}} _ {n}] \ geq 1- \ varepsilon _ {n} / 2,}$
${\ Displaystyle \ operatorname {P} [a_ {n} \ leq \ operatorname {E} _ {\ Theta} [N_ {n} (\ mathbf {x}, \ Theta)] \ leq b_ {n} \ mid { \ mathcal {D}} _ {n}] \ geq 1- \ varepsilon _ {n} / 2,}$
Entonces casi seguramente,
${\ Displaystyle | m _ {\ infty, n} (\ mathbf {x}) - {\ tilde {m}} _ {\ infty, n} (\ mathbf {x}) | \ leq {\ frac {b_ {n } -a_ {n}} {a_ {n}}} {\ tilde {m}} _ {\ infty, n} (\ mathbf {x}) + n \ varepsilon _ {n} \ left (\ max _ { 1 \ leq i \ leq n} Y_ {i} \ derecha).}$

Resultados de consistencia

Asumir que ${\ Displaystyle Y = m (\ mathbf {X}) + \ varepsilon}$ , dónde ${\ Displaystyle \ varepsilon}$ es un ruido gaussiano centrado, independiente de ${\ Displaystyle \ mathbf {X}}$ , con varianza finita ${\ Displaystyle \ sigma ^ {2} <\ infty}$ . Es más, ${\ Displaystyle \ mathbf {X}}$ se distribuye uniformemente en ${\ displaystyle [0,1] ^ {d}}$ y ${\ Displaystyle m}$ es Lipschitz . Scornet ^[30] demostró límites superiores en las tasas de consistencia para KeRF centrado y KeRF uniforme.

Consistencia de KeRF centrado

Proporcionar ${\ displaystyle k \ rightarrow \ infty}$ y ${\ Displaystyle n / 2 ^ {k} \ rightarrow \ infty}$ , existe una constante ${\ Displaystyle C_ {1}> 0}$ tal que, para todos ${\ Displaystyle n}$ , ${\ Displaystyle \ mathbb {E} [{\ tilde {m}} _ {n} ^ {cc} (\ mathbf {X}) -m (\ mathbf {X})] ^ {2} \ leq C_ {1 } n ^ {- 1 / (3 + d \ log 2)} (\ log n) ^ {2}}$ .

Consistencia de KeRF uniforme

Proporcionar ${\ displaystyle k \ rightarrow \ infty}$ y ${\ Displaystyle n / 2 ^ {k} \ rightarrow \ infty}$ , existe una constante ${\ Displaystyle C> 0}$ tal que, ${\ Displaystyle \ mathbb {E} [{\ tilde {m}} _ {n} ^ {uf} (\ mathbf {X}) -m (\ mathbf {X})] ^ {2} \ leq Cn ^ { -2 / (6 + 3d \ log 2)} (\ log n) ^ {2}}$ .

Desventajas

Si bien los bosques aleatorios a menudo logran una mayor precisión que un solo árbol de decisión, sacrifican la interpretabilidad intrínseca presente en los árboles de decisión. Los árboles de decisión forman parte de una familia bastante pequeña de modelos de aprendizaje automático que se pueden interpretar fácilmente junto con modelos lineales, modelos basados en reglas y modelos basados en la atención . Esta interpretabilidad es una de las cualidades más deseables de los árboles de decisión. Permite a los desarrolladores confirmar que el modelo ha aprendido información realista de los datos y permite a los usuarios finales tener confianza en las decisiones tomadas por el modelo. ^[5]^[3] Por ejemplo, seguir el camino que toma un árbol de decisiones para tomar su decisión es bastante trivial, pero seguir los caminos de decenas o cientos de árboles es mucho más difícil. Para lograr tanto el rendimiento como la interpretabilidad, algunas técnicas de compresión de modelos permiten transformar un bosque aleatorio en un árbol de decisión mínimo "nacido de nuevo" que reproduce fielmente la misma función de decisión. ^[5]^[36] Si se establece que los atributos predictivos están correlacionados linealmente con la variable objetivo, es posible que el uso de bosque aleatorio no mejore la precisión del alumno base. ^[5]^[29] Además, en problemas con múltiples variables categóricas, es posible que el bosque aleatorio no pueda aumentar la precisión del alumno base. ^[37]

Ver también

Impulso
Aprendizaje del árbol de decisiones
Aprendizaje conjunto
Aumento de gradiente
Estadísticas no paramétricas
Algoritmo aleatorizado

Referencias

↑ a b c d Ho, Tin Kam (1995). Bosques de decisión aleatoria (PDF) . Actas de la 3ª Conferencia Internacional sobre Análisis y Reconocimiento de Documentos, Montreal, QC, 14–16 de agosto de 1995. págs. 278–282. Archivado desde el original (PDF) el 17 de abril de 2016 . Consultado el 5 de junio de 2016 .
^ a b c d Ho TK (1998). "El método de subespacio aleatorio para la construcción de bosques de decisión" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 20 (8): 832–844. doi : 10.1109 / 34.709601 .
^ a b c d e f g Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2008). Los elementos del aprendizaje estadístico (2ª ed.). Saltador. ISBN 0-387-95284-5.
^ a b Piryonesi S. Madeh; El-Diraby Tamer E. (1 de junio de 2020). "Papel de la analítica de datos en la gestión de activos de infraestructura: superación de problemas de calidad y tamaño de datos". Revista de Ingeniería de Transporte, Parte B: Pavimentos . 146 (2): 04020022. doi : 10.1061 / JPEODX.0000175 .
^ a b c d e f Piryonesi, S. Madeh; El-Diraby, Tamer E. (1 de febrero de 2021). "Uso del aprendizaje automático para examinar el impacto del tipo de indicador de rendimiento en el modelado de deterioro de pavimento flexible" . Revista de sistemas de infraestructura . 27 (2): 04021005. doi : 10.1061 / (ASCE) IS.1943-555X.0000602 . ISSN 1076-0342 .
^ a b Kleinberg E (1990). "Discriminación estocástica" (PDF) . Anales de Matemáticas e Inteligencia Artificial . 1 (1–4): 207–239. CiteSeerX 10.1.1.25.6750 . doi : 10.1007 / BF01531079 . Archivado desde el original (PDF) el 18 de enero de 2018.
^ a b Kleinberg E (1996). "Un método de modelado estocástico resistente al sobreentrenamiento para el reconocimiento de patrones" . Annals of Statistics . 24 (6): 2319–2349. doi : 10.1214 / aos / 1032181157 . Señor 1425956 .
^ a b Kleinberg E (2000). "Sobre la implementación algorítmica de la discriminación estocástica" (PDF) . Transacciones IEEE en PAMI . 22 (5): 473–490. CiteSeerX 10.1.1.33.4131 . doi : 10.1109 / 34.857004 . Archivado desde el original (PDF) el 18 de enero de 2018.
^ a b c d Breiman L. (2001). "Bosques al azar" . Aprendizaje automático . 45 (1): 5–32. doi : 10.1023 / A: 1010933404324 .
^ a b Liaw A (16 de octubre de 2012). "Documentación para el paquete R randomForest" (PDF) . Consultado el 15 de marzo de 2013 .
^ Número de registro de marca comercial de EE. UU. 3185828, registrado 2006/12/19.
^ "RANDOM FORESTS Marca registrada de Health Care Productivity, Inc. - Número de registro 3185828 - Número de serie 78642027 :: Marcas registradas de Justia" .
^ a b Amit Y, Geman D (1997). "Cuantificación y reconocimiento de formas con árboles aleatorios" (PDF) . Computación neuronal . 9 (7): 1545-1588. CiteSeerX 10.1.1.57.6069 . doi : 10.1162 / neco.1997.9.7.1545 .
^ Dietterich, Thomas (2000). "Una comparación experimental de tres métodos para construir conjuntos de árboles de decisión: ensacado, impulso y aleatorización" . Aprendizaje automático . 40 (2): 139-157. doi : 10.1023 / A: 1007607513941 .
^ Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). Introducción al aprendizaje estadístico . Saltador. págs. 316–321.
^ Ho, Tin Kam (2002). "Un análisis de la complejidad de los datos de las ventajas comparativas de los constructores de bosques de decisión" (PDF) . Análisis de patrones y aplicaciones . 5 (2): 102-112. doi : 10.1007 / s100440200009 .
^ Geurts P, Ernst D, Wehenkel L (2006). "Árboles extremadamente aleatorizados" (PDF) . Aprendizaje automático . 63 : 3-42. doi : 10.1007 / s10994-006-6226-1 .
^ Zhu R, Zeng D, Kosorok MR (2015). "Árboles de aprendizaje por refuerzo" . Revista de la Asociación Estadounidense de Estadística . 110 (512): 1770-1784. doi : 10.1080 / 01621459.2015.1036994 . PMC 4760114 . PMID 26903687 .
^ Deng, H .; Runger, G .; Tuv, E. (2011). Medidas de sesgo de importancia para atributos y soluciones de valores múltiples . Actas de la 21ª Conferencia Internacional sobre Redes Neuronales Artificiales (ICANN). págs. 293–300.
^ Altmann A, Toloşi L, Sander O, Lengauer T (mayo de 2010). "Importancia de la permutación: una medida de importancia de característica corregida" . Bioinformática . 26 (10): 1340–7. doi : 10.1093 / bioinformatics / btq134 . PMID 20385727 .
^ Strobl C, Boulesteix A, Augustin T (2007). "Selección dividida imparcial para árboles de clasificación basados en el índice de Gini" (PDF) . Estadística computacional y análisis de datos . 52 : 483–501. CiteSeerX 10.1.1.525.3178 . doi : 10.1016 / j.csda.2006.12.030 .
^ Painsky A, Rosset S (2017). "La selección de variables con validación cruzada en métodos basados en árboles mejora el rendimiento predictivo". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 39 (11): 2142–2153. arXiv : 1512.03444 . doi : 10.1109 / tpami.2016.2636831 . PMID 28114007 .
^ Tolosi L, Lengauer T (julio de 2011). "Clasificación con características correlacionadas: falta de fiabilidad de la clasificación de características y soluciones" . Bioinformática . 27 (14): 1986-1994. doi : 10.1093 / bioinformatics / btr300 . PMID 21576180 .
^ a b Lin, Yi; Jeon, Yongho (2002). Bosques aleatorios y vecinos adaptables más cercanos (Informe técnico). Informe técnico No. 1055. Universidad de Wisconsin. CiteSeerX 10.1.1.153.9168 .
^ Shi, T., Horvath, S. (2006). "Aprendizaje no supervisado con predictores de bosque aleatorio". Revista de Estadística Computacional y Gráfica . 15 (1): 118-138. CiteSeerX 10.1.1.698.2365 . doi : 10.1198 / 106186006X94072 . JSTOR 27594168 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S (abril de 2005). "Clasificación de tumores por perfiles de micromatrices de tejido: agrupación de bosques aleatorios aplicada al carcinoma de células renales" . Patología moderna . 18 (4): 547–57. doi : 10.1038 / modpathol.3800322 . PMID 15529185 .
^ Prinzie, A., Van den Poel, D. (2008). "Bosques aleatorios para clasificación multiclase: Logit multinomial aleatorio". Sistemas expertos con aplicaciones . 34 (3): 1721-1732. doi : 10.1016 / j.eswa.2007.01.029 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )
^ Prinzie, Anita (2007). "Clasificación aleatoria multiclase: generalización de bosques aleatorios a MNL aleatorio y NB aleatorio". En Roland Wagner; Norman Revell; Günther Pernul (eds.). Aplicaciones de bases de datos y sistemas expertos: 18ª Conferencia Internacional, DEXA 2007, Regensburg, Alemania, 3-7 de septiembre de 2007, Actas . Apuntes de conferencias en informática. 4653 . págs. 349–358. doi : 10.1007 / 978-3-540-74469-6_35 . ISBN 978-3-540-74467-2.
^ a b Smith, Paul F .; Ganesh, Siva; Liu, Ping (1 de octubre de 2013). "Una comparación de regresión forestal aleatoria y regresión lineal múltiple para la predicción en neurociencia" . Revista de métodos de neurociencia . 220 (1): 85–91. doi : 10.1016 / j.jneumeth.2013.08.024 .
^ a b c d Scornet, Erwan (2015). "Bosques aleatorios y métodos de kernel". arXiv : 1502.03836 [ math.ST ].
^ Breiman, Leo (2000). "Alguna teoría del infinito para conjuntos de predictores" . Informe técnico 579, Dpto. De Estadística UCB. Cite journal requiere |journal=( ayuda )
^ Lin, Yi; Jeon, Yongho (2006). "Bosques aleatorios y vecinos más cercanos adaptativos". Revista de la Asociación Estadounidense de Estadística . 101 (474): 578–590. CiteSeerX 10.1.1.153.9168 . doi : 10.1198 / 016214505000001230 .
^ Davies, Alex; Ghahramani, Zoubin (2014). "El Random Forest Kernel y otros núcleos para big data de particiones aleatorias". arXiv : 1402.4293 [ stat.ML ].
^ a b Breiman L, Ghahramani Z (2004). "Consistencia para un modelo simple de bosques aleatorios". Departamento de Estadística de la Universidad de California en Berkeley. Informe técnico (670). CiteSeerX 10.1.1.618.90 .
^ a b Arlot S, Genuer R (2014). "Análisis de sesgo forestal puramente aleatorio". arXiv : 1407.3939 [ math.ST ].
^ Vidal, Thibaut; Schiffer, Maximilian (2020). "Conjuntos de árboles nacidos de nuevo" . Congreso Internacional de Machine Learning . PMLR. 119 : 9743–9753.
^ "Piryonesi, SM (2019). La aplicación de análisis de datos a la gestión de activos: deterioro y adaptación al cambio climático en las carreteras de Ontario (tesis doctoral)" .

Otras lecturas

Prinzie A, Poel D (2007). "Clasificación aleatoria multiclase: generalización de bosques aleatorios a MNL aleatorio y NB aleatorio" . Aplicaciones de bases de datos y sistemas expertos . Apuntes de conferencias en informática . 4653 . pag. 349. doi : 10.1007 / 978-3-540-74469-6_35 . ISBN 978-3-540-74467-2.
Denisko D, Hoffman MM (febrero de 2018). "Clasificación e interacción en bosques aleatorios" . Actas de la Academia Nacional de Ciencias de los Estados Unidos de América . 115 (8): 1690–1692. doi : 10.1073 / pnas.1800256115 . PMC 5828645 . PMID 29440440 .

enlaces externos

Descripción del clasificador de bosques aleatorios (sitio de Leo Breiman)
Liaw, Andy y Wiener, Matthew "Clasificación y regresión por randomForest" R News (2002) Vol. 2/3 p. 18 (Discusión del uso del paquete de bosque aleatorio para R )

[ho1995-1] Ho, Tin Kam (1995). Bosques de decisión aleatoria (PDF) . Actas de la 3ª Conferencia Internacional sobre Análisis y Reconocimiento de Documentos, Montreal, QC, 14–16 de agosto de 1995. págs. 278–282. Archivado desde el original (PDF) el 17 de abril de 2016 . Consultado el 5 de junio de 2016 .

[ho1998-2] Ho TK (1998). "El método de subespacio aleatorio para la construcción de bosques de decisión" (PDF) . Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 20 (8): 832–844. doi : 10.1109 / 34.709601 .

[elemstatlearn-3] Hastie, Trevor ; Tibshirani, Robert ; Friedman, Jerome (2008). Los elementos del aprendizaje estadístico (2ª ed.). Saltador. ISBN 0-387-95284-5.

[:02-4] Piryonesi S. Madeh; El-Diraby Tamer E. (1 de junio de 2020). "Papel de la analítica de datos en la gestión de activos de infraestructura: superación de problemas de calidad y tamaño de datos". Revista de Ingeniería de Transporte, Parte B: Pavimentos . 146 (2): 04020022. doi : 10.1061 / JPEODX.0000175 .

[:0-5] Piryonesi, S. Madeh; El-Diraby, Tamer E. (1 de febrero de 2021). "Uso del aprendizaje automático para examinar el impacto del tipo de indicador de rendimiento en el modelado de deterioro de pavimento flexible" . Revista de sistemas de infraestructura . 27 (2): 04021005. doi : 10.1061 / (ASCE) IS.1943-555X.0000602 . ISSN 1076-0342 .

[kleinberg1990-6] Kleinberg E (1990). "Discriminación estocástica" (PDF) . Anales de Matemáticas e Inteligencia Artificial . 1 (1–4): 207–239. CiteSeerX 10.1.1.25.6750 . doi : 10.1007 / BF01531079 . Archivado desde el original (PDF) el 18 de enero de 2018.

[kleinberg1996-7] Kleinberg E (1996). "Un método de modelado estocástico resistente al sobreentrenamiento para el reconocimiento de patrones" . Annals of Statistics . 24 (6): 2319–2349. doi : 10.1214 / aos / 1032181157 . Señor 1425956 .

[kleinberg2000-8] Kleinberg E (2000). "Sobre la implementación algorítmica de la discriminación estocástica" (PDF) . Transacciones IEEE en PAMI . 22 (5): 473–490. CiteSeerX 10.1.1.33.4131 . doi : 10.1109 / 34.857004 . Archivado desde el original (PDF) el 18 de enero de 2018.

[breiman2001-9] Breiman L. (2001). "Bosques al azar" . Aprendizaje automático . 45 (1): 5–32. doi : 10.1023 / A: 1010933404324 .

[rpackage-10] Liaw A (16 de octubre de 2012). "Documentación para el paquete R randomForest" (PDF) . Consultado el 15 de marzo de 2013 .

[11] Número de registro de marca comercial de EE. UU. 3185828, registrado 2006/12/19.

[12] "RANDOM FORESTS Marca registrada de Health Care Productivity, Inc. - Número de registro 3185828 - Número de serie 78642027 :: Marcas registradas de Justia" .

[amitgeman1997-13] Amit Y, Geman D (1997). "Cuantificación y reconocimiento de formas con árboles aleatorios" (PDF) . Computación neuronal . 9 (7): 1545-1588. CiteSeerX 10.1.1.57.6069 . doi : 10.1162 / neco.1997.9.7.1545 .

[14] Dietterich, Thomas (2000). "Una comparación experimental de tres métodos para construir conjuntos de árboles de decisión: ensacado, impulso y aleatorización" . Aprendizaje automático . 40 (2): 139-157. doi : 10.1023 / A: 1007607513941 .

[islr-15] Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013). Introducción al aprendizaje estadístico . Saltador. págs. 316–321.

[ho2002-16] Ho, Tin Kam (2002). "Un análisis de la complejidad de los datos de las ventajas comparativas de los constructores de bosques de decisión" (PDF) . Análisis de patrones y aplicaciones . 5 (2): 102-112. doi : 10.1007 / s100440200009 .

[17] Geurts P, Ernst D, Wehenkel L (2006). "Árboles extremadamente aleatorizados" (PDF) . Aprendizaje automático . 63 : 3-42. doi : 10.1007 / s10994-006-6226-1 .

[18] Zhu R, Zeng D, Kosorok MR (2015). "Árboles de aprendizaje por refuerzo" . Revista de la Asociación Estadounidense de Estadística . 110 (512): 1770-1784. doi : 10.1080 / 01621459.2015.1036994 . PMC 4760114 . PMID 26903687 .

[19] Deng, H .; Runger, G .; Tuv, E. (2011). Medidas de sesgo de importancia para atributos y soluciones de valores múltiples . Actas de la 21ª Conferencia Internacional sobre Redes Neuronales Artificiales (ICANN). págs. 293–300.

[20] Altmann A, Toloşi L, Sander O, Lengauer T (mayo de 2010). "Importancia de la permutación: una medida de importancia de característica corregida" . Bioinformática . 26 (10): 1340–7. doi : 10.1093 / bioinformatics / btq134 . PMID 20385727 .

[21] Strobl C, Boulesteix A, Augustin T (2007). "Selección dividida imparcial para árboles de clasificación basados en el índice de Gini" (PDF) . Estadística computacional y análisis de datos . 52 : 483–501. CiteSeerX 10.1.1.525.3178 . doi : 10.1016 / j.csda.2006.12.030 .

[22] Painsky A, Rosset S (2017). "La selección de variables con validación cruzada en métodos basados en árboles mejora el rendimiento predictivo". Transacciones IEEE sobre análisis de patrones e inteligencia de máquinas . 39 (11): 2142–2153. arXiv : 1512.03444 . doi : 10.1109 / tpami.2016.2636831 . PMID 28114007 .

[23] Tolosi L, Lengauer T (julio de 2011). "Clasificación con características correlacionadas: falta de fiabilidad de la clasificación de características y soluciones" . Bioinformática . 27 (14): 1986-1994. doi : 10.1093 / bioinformatics / btr300 . PMID 21576180 .

[linjeon02-24] Lin, Yi; Jeon, Yongho (2002). Bosques aleatorios y vecinos adaptables más cercanos (Informe técnico). Informe técnico No. 1055. Universidad de Wisconsin. CiteSeerX 10.1.1.153.9168 .

[25] Shi, T., Horvath, S. (2006). "Aprendizaje no supervisado con predictores de bosque aleatorio". Revista de Estadística Computacional y Gráfica . 15 (1): 118-138. CiteSeerX 10.1.1.698.2365 . doi : 10.1198 / 106186006X94072 . JSTOR 27594168 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[26] Shi T, Seligson D, Belldegrun AS, Palotie A, Horvath S (abril de 2005). "Clasificación de tumores por perfiles de micromatrices de tejido: agrupación de bosques aleatorios aplicada al carcinoma de células renales" . Patología moderna . 18 (4): 547–57. doi : 10.1038 / modpathol.3800322 . PMID 15529185 .

[27] Prinzie, A., Van den Poel, D. (2008). "Bosques aleatorios para clasificación multiclase: Logit multinomial aleatorio". Sistemas expertos con aplicaciones . 34 (3): 1721-1732. doi : 10.1016 / j.eswa.2007.01.029 .Mantenimiento de CS1: utiliza el parámetro de autores ( enlace )

[28] Prinzie, Anita (2007). "Clasificación aleatoria multiclase: generalización de bosques aleatorios a MNL aleatorio y NB aleatorio". En Roland Wagner; Norman Revell; Günther Pernul (eds.). Aplicaciones de bases de datos y sistemas expertos: 18ª Conferencia Internacional, DEXA 2007, Regensburg, Alemania, 3-7 de septiembre de 2007, Actas . Apuntes de conferencias en informática. 4653 . págs. 349–358. doi : 10.1007 / 978-3-540-74469-6_35 . ISBN 978-3-540-74467-2.

[:1-29] Smith, Paul F .; Ganesh, Siva; Liu, Ping (1 de octubre de 2013). "Una comparación de regresión forestal aleatoria y regresión lineal múltiple para la predicción en neurociencia" . Revista de métodos de neurociencia . 220 (1): 85–91. doi : 10.1016 / j.jneumeth.2013.08.024 .

[scornet2015random-30] Scornet, Erwan (2015). "Bosques aleatorios y métodos de kernel". arXiv : 1502.03836 [ math.ST ].

[breiman2000some-31] Breiman, Leo (2000). "Alguna teoría del infinito para conjuntos de predictores" . Informe técnico 579, Dpto. De Estadística UCB. Cite journal requiere |journal=( ayuda )

[lin2006random-32] Lin, Yi; Jeon, Yongho (2006). "Bosques aleatorios y vecinos más cercanos adaptativos". Revista de la Asociación Estadounidense de Estadística . 101 (474): 578–590. CiteSeerX 10.1.1.153.9168 . doi : 10.1198 / 016214505000001230 .

[davies2014random-33] Davies, Alex; Ghahramani, Zoubin (2014). "El Random Forest Kernel y otros núcleos para big data de particiones aleatorias". arXiv : 1402.4293 [ stat.ML ].

[breiman2004consistency-34] Breiman L, Ghahramani Z (2004). "Consistencia para un modelo simple de bosques aleatorios". Departamento de Estadística de la Universidad de California en Berkeley. Informe técnico (670). CiteSeerX 10.1.1.618.90 .

[arlot2014analysis-35] Arlot S, Genuer R (2014). "Análisis de sesgo forestal puramente aleatorio". arXiv : 1407.3939 [ math.ST ].

[36] Vidal, Thibaut; Schiffer, Maximilian (2020). "Conjuntos de árboles nacidos de nuevo" . Congreso Internacional de Machine Learning . PMLR. 119 : 9743–9753.

[:3-37] "Piryonesi, SM (2019). La aplicación de análisis de datos a la gestión de activos: deterioro y adaptación al cambio climático en las carreteras de Ontario (tesis doctoral)" .

[1]