1 votos

diferencia entre sesgo y varianza

En el aprendizaje automático, si el aproximador obtiene mejores resultados en los datos de entrenamiento y peores en los datos no vistos, entonces se ajusta en exceso (aprende puntos individuales de los datos); si lo hace terriblemente en el conjunto de datos de entrenamiento y la pérdida (MSE) es alta, significa que se ajusta en defecto.

2voto

Nikolai Prokoschenko Puntos 2507

La explicación simple es que usted parece estar tratando de predecir algún valor fuera de la muestra $\theta$ donde su estimador es $\hat \Theta$ y su pérdida será proporcional a $(\hat \Theta - \theta)^2$ por lo que debe intentar minimizar $\mathbb E\left[\left(\hat \Theta - \theta\right)^2\right]$

Puedes reescribirlo como una suma: $\mathbb E\left[\left(\hat \Theta - \theta\right)^2\right] = \left(\mathbb E\left[\hat \Theta - \theta\right]\right)^2 +\mathbb E\left[\left(\hat \Theta - \mathbb E\left[\hat \Theta\right] \right)^2\right]$ donde

  • $\left(\mathbb E\left[\hat \Theta - \theta\right]\right)^2$ es el cuadrado del sesgo esperado $E\left[\hat \Theta - \theta\right]$
  • $\mathbb E\left[\left(\hat \Theta - \mathbb E\left[\hat \Theta\right] \right)^2\right]$ es la varianza del estimador $\hat \Theta$ ignorando su precisión

Esto ilustra que no sólo debes intentar que tu estimador sea insesgado, ni sólo intentar minimizar la varianza de tu estimador, sino tener en cuenta ambas cosas al mismo tiempo. Su aprendizaje automático puede ajustarse para intentar esto mediante métodos como la validación cruzada en su conjunto de entrenamiento, y puede hacerlo sin considerar explícitamente el sesgo o la varianza, concentrándose directamente en $\mathbb E\left[\left(\hat \Theta - \theta\right)^2\right]$ .

Como ejemplo de al mismo tiempo y que se trata de una cuestión más amplia que el sobreajuste o el infraajuste, si se intenta estimar la varianza de una variable aleatoria normalmente distribuida de media y varianza desconocidas, el estimador $\hat \sigma^2_{n-1} = \frac1{n-1} \sum (x_i-\bar x)^2$ tiene el mérito de ser insesgado y de tener la varianza más pequeña de todos los estimadores insesgados. Pero no minimiza $\mathbb E[(\hat \sigma^2 - \sigma^2)^2]$ según este criterio, el mejor estimador sería $\hat \sigma^2_{n+1} = \frac1{n+1} \sum (x_i-\bar x)^2$ aunque esté sesgado a la baja con $E[\hat \sigma^2_{n+1} - \sigma^2] = -\frac{2\sigma^2}{n+1}$ . La mayoría de las cuestiones de aprendizaje automático son más complicadas que esto y, por tanto, no se prestan a un análisis sencillo, pero el concepto de encontrar el mejor modelo para minimizar el error fuera de la muestra es similar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X