7 votos

Diferencia entre el dilema de sesgo varianza y desbordamiento

Me pregunto qué diferencia hace si hablamos de sesgo varianza dilema donde trazando una línea de regresión para el conjunto de datos determinado reduce el sesgo y aumenta la varianza o si hablamos de desbordamiento que el modelo está equipado para el conjunto de datos y no generalizar a nuevos conjuntos de datos.

Sobreajuste esencialmente implica el mismo equilibrio entre biasedness y varianza ¿no?

37voto

Bryan Rehbein Puntos 3947

Puedo ver "sobreajuste" como un ejemplo de un sesgo de la varianza de trade-off (yo no lo llamaría un "dilema") que ha ido demasiado lejos hacia el final de la varianza.

El ejemplo habitual que tengo en mente para el sesgo y la varianza de trade-off es el caso de un modelo lineal en el que todas las covariables tienen algún efecto, pero donde es mejor colocar aquellos cuyos efectos son insignificantes, incurrir en algún sesgo en el fin de reducir la varianza.

El ejemplo habitual que tengo en mente para "sobreajuste" es imaginar que la verdad está contenida dentro de la clase de modelos que se consideran, así que las cosas podrían ser imparcial, pero, a continuación, la clase de modelos se expande a través de los parámetros agregados, lo que es demasiado flexible, de modo que el modelo ajustado se asemeja a los datos observados muy de cerca, pero no necesariamente el subyacente de la población o proceso.

Yo, de hecho, bastante disgusta el término "sobreajuste". Más bien diría que el "ajuste demasiado complejo como un modelo".

1voto

Brettski Puntos 5485

Creo que están relacionados, pero no idénticos problemas.

Por ejemplo, su posible ejecutar en el sesgo de la varianza dilema podría decirse que mucho antes de que un modelo es "overfit". Por ejemplo, en el análisis de supervivencia, uno podría argumentar razonablemente que un constante peligro (distribución exponencial) es tan raro que siempre debe "pagar" para la protección de la utilización de una mayor flexibilidad en la distribución como la distribución de Weibull. Hay un número de otros ejemplos en los que uno puede luchar con la disminución de la precisión de una estimación bien antes de que usted realmente ha golpeado "overfit". Especialmente en los campos donde se está trabajando a menudo muy cerca de la nulos (epidemiología ambiental viene a la mente).

Para mí, el sobreajuste también implica un problema con la interpretación de su modelo. Si uno tiene una ecuación de regresión como y = b1 + b2*x + b3*(x^2) + b4*(x^3) + b5*(x^4) + b6*(x^5) usted tiene un problema más allá de los prejuicios/de precisión, equilibrio, y en cómo uno interpreta de manera significativa de orden superior polinomio relaciones en el campo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X