28 votos

¿Por qué un árbol de decisión tiene un sesgo bajo y una varianza alta?

Preguntas

  1. ¿Depende de si el árbol es superficial o profundo? ¿O podemos decir esto independientemente de la profundidad/nivel del árbol?
  2. ¿Por qué el sesgo es bajo y la varianza alta? Por favor, explique intuitiva y matemáticamente

18voto

George Levi Puntos 6

Llego un poco tarde a la fiesta, pero creo que esta pregunta podría ser respondida con ejemplos concretos.

Escribiré un resumen de esto excelente artículo: bias-variance-trade-off que me ayudó a entender el tema.

El error de predicción de cualquier algoritmo de aprendizaje automático puede dividirse en tres partes:

  • Error de sesgo
  • Error de varianza
  • Error irreducible

Error irreducible

Como su nombre indica, es un componente de error que no podemos corregir, independientemente del algoritmo y su selección de parámetros. El error irreductible se debe a complejidades que son simplemente no capturados en el conjunto de entrenamiento. Podría tratarse de atributos que no tenemos en un conjunto de aprendizaje, pero que afectan al mapeo del resultado a pesar de todo.

Error de sesgo

El error de sesgo se debe a nuestras suposiciones sobre la función del objetivo. Cuantas más suposiciones (restricciones) hagamos sobre las funciones objetivo, más sesgo introduciremos. Los modelos con un sesgo elevado son menos flexibles porque hemos impuesto más reglas a las funciones objetivo.

Error de varianza

El error de varianza es la variabilidad de la forma de una función objetivo con respecto a diferentes conjuntos de entrenamiento. Los modelos con una varianza de error pequeña no cambiarán mucho si se sustituyen un par de muestras del conjunto de entrenamiento. Los modelos con una varianza alta pueden verse afectados incluso con pequeños cambios en el conjunto de entrenamiento.

Consideremos la regresión lineal simple:

Y=b0+b1x

Obviamente, esta es una definición bastante restrictiva de una función objetivo y, por lo tanto, este modelo tiene un alto sesgo.

Por otra parte, debido a la baja varianza, si se cambian un par de muestras de datos, es poco probable que esto provoque cambios importantes en el mapeo general que realiza la función objetivo. Por otro lado, algoritmos como el de k-cercanos tienen una alta varianza y un bajo sesgo. Es fácil imaginar cómo las diferentes muestras pueden afectar a la superficie de decisión de K-N-N.

Generalmente, los algoritmos paramétricos tienen un sesgo alto y una varianza baja, y viceversa.

Uno de los retos del aprendizaje automático es encontrar el equilibrio adecuado entre el error de sesgo y el error de varianza.

Árbol de decisión

Ahora que tenemos estas definiciones, también es sencillo ver que los árboles de decisión son un ejemplo de modelo con bajo sesgo y alta varianza. El árbol casi no hace suposiciones sobre la función objetivo, pero es muy susceptible a la varianza de los datos.

Existen algoritmos de conjunto, como la agregación bootstrapping y el bosque aleatorio, que pretenden reducir la varianza a costa de un pequeño sesgo en el árbol de decisión.

6voto

AJcodez Puntos 154

Si el número de niveles es demasiado alto, es decir, un árbol de decisión complicado, el modelo tiende a sobreajustarse.

Intuitivamente, puede entenderse así. Cuando hay demasiados nodos de decisión por los que pasar antes de llegar al resultado, es decir, el número de nodos que hay que atravesar antes de llegar a los nodos hoja es alto, las condiciones que se comprueban se vuelven multiplicativas. Es decir, el cálculo se convierte en (condición 1)&&(condición 2)&&(condición 3)&&(condición 4)&&(condición 5) .

Sólo si se cumplen todas las condiciones, se toma una decisión. Como puede ver, esto funcionará muy bien para el conjunto de entrenamiento, ya que se está reduciendo continuamente los datos. El árbol se ajusta mucho a los datos presentes en el conjunto de entrenamiento.

Pero cuando se alimenta un nuevo punto de datos, incluso si uno de los parámetros se desvía ligeramente, la condición no se cumplirá y tomará la rama equivocada.

4voto

Vaibhav Puntos 121

¿Por qué un árbol de decisión tiene un sesgo bajo y una varianza alta? ¿Depende esto de de si el árbol es superficial o profundo? ¿O podemos decir esto independientemente de la profundidad/niveles del árbol? ¿Por qué el sesgo es bajo y la varianza alta? Por favor, explíquelo de forma intuitiva y matemática.

Sesgo vs. Varianza

Más sesgo = error por ser el modelo más simple (no se ajusta muy bien a los datos)

Más varianza = error por ser el modelo más complejo (se ajusta demasiado a los datos y aprende el ruido además de los patrones inherentes a los datos)

Todo es relativo

Quiero empezar diciendo que todo es relativo. El árbol de decisión en general tiene un sesgo bajo y una varianza alta que digamos los bosques aleatorios. Del mismo modo, un árbol más superficial tendría mayor sesgo y menor varianza que el mismo árbol con mayor profundidad.

Comparación de la varianza de los árboles de decisión y los bosques aleatorios

Ahora, una vez aclarado esto, pensemos por qué los árboles de decisión serían peores en varianza (mayor varianza y menor sesgo) que, digamos, los bosques aleatorios. La forma en que funciona un algoritmo de árbol de decisión es que los datos se dividen una y otra vez a medida que descendemos en el árbol, por lo que las predicciones reales se harían con cada vez menos puntos de datos. En comparación con eso, los bosques aleatorios agregan las decisiones de múltiples árboles, y eso también, árboles menos correlacionados a través de la aleatorización, por lo que el modelo se generaliza mejor (=> funciona de forma más fiable en diferentes conjuntos de datos = menor varianza). Del mismo modo, estamos haciendo más suposiciones simplificadoras en los bosques aleatorios para consultar sólo un subconjunto de datos y características para ajustar un solo árbol, de ahí un mayor sesgo. Asimismo, un árbol de menor altura = menos dependiente de menos puntos de datos generaliza mejor y tiene menos varianza en comparación con un árbol profundo.

3voto

Mohammadreza Puntos 1964
  1. Un árbol de decisión complicado (por ejemplo, profundo) tiene un sesgo bajo y una varianza alta. El equilibrio entre sesgo y varianza depende de la profundidad del árbol.

  2. El árbol de decisión es sensible a dónde se divide y cómo se divide. Por lo tanto, incluso pequeños cambios en los valores de las variables de entrada pueden dar lugar a una estructura de árbol muy diferente.

0voto

Russ Matney Puntos 101

Contexto El árbol de decisión tiene un sesgo bajo y una varianza alta


Q. ¿Depende de si el árbol es superficial o profundo?

A. Si el árbol es poco profundo, entonces no estamos comprobando muchas condiciones/restricciones, es decir, la lógica es simple o menos compleja, por lo que automáticamente se reduce el sobreajuste. Esto introduce un mayor sesgo en comparación con los árboles más profundos en los que se sobreajustan los datos. Se puede imaginar que, al no calcular deliberadamente más condiciones, estamos haciendo algunas suposiciones (que introducen un sesgo) al crear el árbol.


Q. ¿O podemos decir esto independientemente de la profundidad/niveles del árbol?

A. Se puede pensar que la profundidad significa menos el sesgo, ya que nos basamos más en los datos que en las suposiciones.


Q. ¿Por qué el sesgo es bajo y la varianza alta?

A. Esto ya se ha contestado bien en otras respuestas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X