23 votos

¿Son el Random Forest y el Boosting paramétricos o no paramétricos?

Al leer el excelente Modelado estadístico: Las dos culturas (Breiman 2001) En este sentido, podemos aprovechar toda la diferencia entre los modelos estadísticos tradicionales (por ejemplo, la regresión lineal) y los algoritmos de aprendizaje automático (por ejemplo, Bagging, Random Forest, Boosted trees...).

Breiman critica los modelos de datos (paramétricos) porque se basan en la suposición de que las observaciones son generadas por un modelo conocido y formal prescrito por el estadístico, que puede emular mal a la Naturaleza. En cambio, los algoritmos de ML no asumen ningún modelo formal y aprenden directamente las asociaciones entre las variables de entrada y salida a partir de los datos.

Me he dado cuenta de que el Bagging/RF y el Boosting, también son algo paramétrico: por ejemplo, ntree , mtry en RF, ritmo de aprendizaje , fracción de bolsa , complejidad del árbol en los árboles Stochastic Gradient Boosted son todos de sintonía parámetros . También estamos estimando estos parámetros a partir de los datos, ya que utilizamos los datos para encontrar los valores óptimos de estos parámetros.

¿Cuál es la diferencia? ¿Son los RF y los Boosted Trees modelos paramétricos?

19voto

Daniel Persson Puntos 81

Los modelos paramétricos tienen parámetros (que se infieren) o suposiciones sobre la distribución de los datos, mientras que los RF, las redes neuronales o los árboles de refuerzo tienen parámetros relacionados con el propio algoritmo, pero no necesitan suposiciones sobre la distribución de los datos ni clasifican los datos en una distribución teórica. De hecho, casi todos los algoritmos tienen parámetros como las iteraciones o los valores de los márgenes relacionados con la optimización.

5 votos

Así que, para resumir: 1) tanto los parámetros de los modelos ML como los paramétricos se ajustan/estiman basándose en los datos, PERO 2) en ML, los parámetros controlan cómo los algoritmos aprender a partir de los datos (sin hacer ninguna suposición sobre los datos, y después de la generación de datos), mientras que los parámetros de los modelos paramétricos (modelos que se suponen a priori) controlan el mecanismo que se supone que tiene producido los datos (con un montón de supuestos poco realistas que rara vez se cumplen en la práctica). ¿Cree que es un resumen adecuado? ¿Añadiría o cambiaría algo?

5 votos

Creo que una frase del artículo de Breiman que lo resume todo es "el modelado algorítmico cambia el enfoque de los modelos de datos a las propiedades de los algoritmos".

2 votos

No hay que subestimar los modelos paramétricos, ya que hay situaciones en las que son necesarios y óptimos para resolver muchos problemas. Además sus supuestos no son tan irreales. Muchas distribuciones teóricas son válidas para explicar muchas cosas, desde la normal hasta la binomial, pasando por la lognormal, la geométrica, etc. No se trata de una u otra, se trata de elegir la forma correcta de resolver un problema.

9voto

patfla Puntos 1

El término "no paramétrico" es un poco equívoco, ya que generalmente estos modelos/algoritmos se definen por tener un número de parámetros que aumenta a medida que aumenta el tamaño de la muestra. El hecho de que una RF haga esto o no depende de cómo funcione el algoritmo de división/de poda del árbol. Si no se realiza ninguna poda, y la división se basa en las reglas del tamaño de la muestra (por ejemplo, dividir un nodo si contiene más de 10 puntos de datos), entonces un RF sería no paramétrico.

Sin embargo, hay otros métodos "paramétricos", como la regresión, que se convierten en algo "no paramétrico" cuando se añaden los métodos de selección de características. En mi opinión, el proceso de selección de características para la regresión lineal/logística es muy similar a los métodos basados en árboles. Creo que gran parte de lo que ha hecho la comunidad de ML es rellenar el espacio de cómo convertir un conjunto de "entradas brutas" en "entradas de regresión". A nivel básico, un árbol de regresión sigue siendo un "modelo lineal", pero con un conjunto transformado de entradas. Los splines también están en un grupo similar.

En cuanto a los supuestos, los modelos de ML no están "libres de supuestos". Algunas de las suposiciones de ML serían cosas como "el error de validación es similar al error de un caso nuevo", ¡eso es una suposición sobre la distribución de los errores!

La elección de cómo medir el "error" es también una suposición sobre la distribución de los errores; por ejemplo, utilizar el error al cuadrado frente al error absoluto como medida que se está minimizando (por ejemplo, la distribución normal frente a la de Laplace). La decisión de tratar o eliminar los "valores atípicos" también es una suposición de distribución (por ejemplo, distribución normal o de Cauchy).

En cambio, creo que la salida de ML no se molesta en comprobar si las "suposiciones subyacentes" son verdaderas, sino que se basa más en comprobar si las salidas "parecen buenas/razonables" (similar a la cultura de pruebas de TI... ¿entrada+proceso=buena salida?). Esto suele ser mejor porque los "supuestos de modelización" (por ejemplo, que los términos de error se distribuyan normalmente) pueden no caracterizar de forma exclusiva cualquier algoritmo. Además, las predicciones podrían no ser tan diferentes si cambiamos los supuestos (por ejemplo, normal frente a t con 30 grados de libertad).

Sin embargo, vemos que la comunidad de ML ha descubierto muchos de los problemas prácticos que los estadísticos conocían: el equilibrio entre el sesgo y la varianza, la necesidad de grandes conjuntos de datos para ajustar modelos complejos (es decir, la regresión con n<p es un problema de modelización difícil), los problemas del dragado de datos (sobreajuste) frente a la omisión de factores clave (infraajuste).

Un aspecto que creo que ha mejorado el ML es la noción de reproducibilidad: un buen modelo debe funcionar en múltiples conjuntos de datos. La idea de probar-entrenar-validar es una forma útil de llevar este concepto al nivel práctico.

2voto

Mike Cargal Puntos 762

Creo que el criterio para los paramétricos y no paramétricos es éste: si el número de parámetros crece con el número de muestras de entrenamiento. Para la regresión logística y el svm, cuando se seleccionan las características, no se obtienen más parámetros añadiendo más datos de entrenamiento. Pero para RF y demás, los detalles del modelo cambiarán (como la profundidad del árbol) aunque el número de árboles no cambie.

0 votos

Pero en RF o Boosting, aumentar la profundidad del árbol no es añadir parámetros. Usted sigue teniendo su tree.complexity se cambia su valor. Además, en RF y Boosting el número de árboles en el bosque/secuencia cambia dependiendo del tamaño de la muestra

0 votos

En mis opciones, cuando la profundidad del árbol cambia, hay algunas divisiones más en el árbol, por lo que tiene más parámetros. Cuando el número de árbol cambia en RF y Boosting como los datos cambian, pero esto no sucederá cuando el modelo es el modelo lineal.

0 votos

Sí, así es. Y, si tenemos que mirar a las redes neuronales profundas bajo esta lente, entonces, aunque el número de parámetros es fijo, aumentamos los parámetros incrementando la profundidad (y la anchura) en el momento del diseño para aumentar la memoria del modelo para capturar la estructura de una mayor cantidad de datos. Por tanto, la DNN es no paramétrica.

0voto

PeterPancake Puntos 31

En sentido estadístico, el modelo es paramétrico, si los parámetros se aprenden o infieren a partir de los datos. Un árbol en este sentido es no paramétrico. Por supuesto, la profundidad del árbol es un parámetro del algoritmo, pero no se deriva intrínsecamente de los datos, sino que es un parámetro de entrada que tiene que proporcionar el usuario.

-1voto

Vince Puntos 182

Habría pensado que el hecho de que un conjunto de entrenamiento dado sólo tenga un conjunto posible de parámetros calculados también determinaría si el modelo es paramétrico. Este es el caso de la potenciación, la regresión logística, la regresión lineal y los modelos de este tipo, que en su mayoría se consideran paramétricos, mientras que los parámetros estimados en cosas como las redes neuronales pueden ser diferentes dependiendo de cómo se muestree el mismo conjunto para entrenar el modelo. El refuerzo, que siempre actualiza la pseudopérdida en cada iteración del mismo conjunto, me parece más bien un método de entrenamiento paramétrico. Pero en realidad sólo estoy suponiendo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X