5 votos

¿Dónde está el equilibrio entre sesgo y variación, y por qué?

En Wikipedia, la " La compensación de la variación del sesgo " se menciona en el contexto de los modelos de predicción, en los que se puede controlar la complejidad del modelo con algunos parámetros de ajuste, y cuanto más complejo sea el modelo, más probable es que esté menos sesgado pero con mayor varianza.

Sin embargo, hay otros casos de compensación de la variación del sesgo. Por ejemplo, al estimar la tasa de error de un modelo de predicción nos afecta la proporción de observaciones que asignamos para entrenamiento vs. pruebas. Cuantas más observaciones tengamos para la formación, más cerca estaremos de predecir la tasa de error de un modelo que utiliza todas las observaciones (menos sesgo), pero también más variable sería nuestra predicción de la tasa de error (mayor varianza).

¿Hay otros casos clásicos/nuevos que demuestren algún tipo de equilibrio entre sesgo y variación?

4voto

icelava Puntos 548

Recientemente escribí un artículo (esperemos) accesible para ilustrar el problema a un público no técnico en el contexto de la previsión de series temporales: Kolassa (2016). "A veces es mejor ser simple que correcto", Previsión , 40:20-26 .

Comienzo simulando 10.000 series temporales mensuales de longitud 12 con una conocida pero débil estacionalidad. La estacionalidad es fácilmente visible al agregar los datos:

total sales

Sin embargo, es invisible en los datos desagregados, por ejemplo, en los primeros cinco de las 10.000 series:

five time series

Ahora, supongamos que ajustamos dos modelos a cada serie separada, una simple uno usando sólo la intercepción,

$$y_t = \beta_0 + \epsilon ,$$

y un correcto modelo de regresión que regresa las ventas simuladas sobre los efectos estacionales (conocidos y comunes),

$$y_t = \beta_0 + \beta_1 s_t+ \epsilon. $$

Aquí están los pronósticos con un año de anticipación para las primeras cinco series de los dos modelos:

forecasts

Vemos que la forma estacional a veces está al revés, simplemente por el ruido en la serie simulada.

Aquí están los errores cuadrados medios de ambos modelos por mes de retención:

MSEs

Vemos que el modelo más simple mal especificado siempre tiene menos errores que el más complejo correctamente especificado.

Finalmente, aquí está la conexión con el sesgo y la varianza - estos son gráficos de violín de las estimaciones de los parámetros para ambos modelos a través de la serie 10.000 (la línea punteada indica los verdaderos valores de los parámetros):

violin plots of parameter estimates

Notamos que el modelo correcto (por supuesto) arroja estimaciones que son imparciales, es decir, que se distribuyen alrededor del valor real. Por el contrario, el modelo más simple con especificación errónea tiene estimaciones de parámetros sesgadas: la intercepción es en promedio demasiado alta, y el coeficiente estacional está sesgado bajo (porque no ocurre en el modelo, por lo que implícitamente es siempre cero, cuando el valor verdadero es uno).

Sin embargo, el punto clave es que las estimaciones de los parámetros del modelo correcto son mucho más variables, es decir, sus diagramas de violín están mucho más dispersos que los correspondientes diagramas de violín en el modelo simple mal especificado. Y esta varianza en las estimaciones de los parámetros se traduce directamente en una mayor previsión de las MPE (mientras que el sesgo más bajo reducir MME).

La conclusión es que cuando estamos interesados en la previsión o predicción, no sólo debemos preocuparnos por el sesgo de nuestras estimaciones de parámetros, sino también por su varianza. Un modelo más grande tendrá (normalmente) un sesgo menor, pero una mayor varianza, y especialmente cuando encajamos señales débiles con pocos datos, la mayor varianza puede conducir a mayores errores de predicción. La reducción puede ayudar, aumentando el sesgo, pero reduciendo la varianza, con la esperanza de que se reduzca el error total.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X