62 votos

¿Explicación intuitiva de la compensación entre sesgo y varianza?

Estoy buscando una explicación intuitiva del equilibrio entre sesgo y varianza, tanto en general como específicamente en el contexto de la regresión lineal.

1 votos

Hay otra discusión relevante para estos temas aquí: qué-problema-resuelven-los-métodos-de-contracción .

0 votos

27voto

jdelator Puntos 1336

Imagina unos datos 2D -digamos la altura frente al peso de los estudiantes de un instituto- trazados en un par de ejes.

Ahora supongamos que se ajusta una línea recta a través de ella. Esta línea, que por supuesto representa un conjunto de valores predichos, tiene una varianza estadística cero. Pero el sesgo es (probablemente) alto, es decir, no se ajusta muy bien a los datos.

A continuación, supongamos que se modelan los datos con un spline polinómico de alto grado. No está satisfecho con el ajuste, así que aumenta el grado del polinomio hasta que el ajuste mejore (y lo hará, con una precisión arbitraria, de hecho). Ahora tienes una situación con un sesgo que tiende a cero, pero la varianza es muy alta.

Tenga en cuenta que la compensación entre sesgo y varianza no describe una relación proporcional, es decir, si se traza el sesgo frente a la varianza no se verá necesariamente una línea recta que pase por el origen con pendiente -1. En el ejemplo del spline polinómico anterior, la reducción del grado aumenta casi con seguridad la varianza mucho menos de lo que disminuye el sesgo.

El compromiso de sesgo-varianza también está integrado en la función de error de la suma de cuadrados. A continuación, he reescrito (pero no alterado) la forma habitual de esta ecuación para enfatizarla:

$$ E\left(\left(y - \dot{f}(x)\right)^2\right) = \sigma^2 + \left[f(x) - \frac{1}{\kappa}\sum_{i=0}^nf(x_n)\right]^2+\frac{\sigma^2}{\kappa} $$

En el lado derecho, hay tres términos: el primero de ellos es sólo el error irreducible (la varianza de los datos en sí); esto está fuera de nuestro control, así que ignóralo. El segundo término es el cuadrado del sesgo y el tercera es el desviación . Es fácil ver que cuando uno sube, el otro baja: no pueden variar ambos en la misma dirección. Dicho de otro modo, se puede pensar en la regresión por mínimos cuadrados como la búsqueda (implícita) de la combinación óptima de sesgo y varianza entre los modelos candidatos.

9 votos

Me cuesta entender la ecuación; no encuentro ninguna forma de justificarla. Incluso un análisis básico de las unidades identifica problemas. Supongamos que $y$ se mide en parsecs y $x$ en dramas, por ejemplo, para que $f$ y su estimador (¿es eso lo que hace el puntito sobre el $f$ significa?) también están en parsecs. Entonces las lhs y $\sigma^2$ son parsecs al cuadrado; el término medio de la derecha es el cuadrado de la diferencia entre un parsec ( $f(x)$ ) y parsecs por dram (debido a la división por $x$ ); y el último término de la rhs es parsecs al cuadrado por dram. No es válido sumar ninguno de estos términos entre sí.

0 votos

La ecuación está bien (las pequeñas letras griegas en el numerador son no x' sino 'kappa'). Intenta esto: empieza con una fórmula de SSE con la que te sientas cómodo y con unos pocos pasos llegarás a la de arriba.

0 votos

¿Qué es "kappa" en este contexto?

27voto

Jon Norton Puntos 2048

Supongamos que usted está considerando la posibilidad de contratar un seguro de enfermedad catastrófico, y que hay un 1% de probabilidad de enfermar, lo que costaría 1 millón de dólares. Por tanto, el coste esperado de enfermar es de 10.000 dólares. La compañía de seguros, que quiere obtener beneficios, le cobrará 15.000 dólares por la póliza.

La compra de la póliza le da un coste esperado de 15.000, que tiene una varianza de 0 pero que puede considerarse sesgada, ya que es 5.000 más que el coste real esperado de enfermar.

No comprar la póliza da un coste esperado de 10.000, que es insesgado ya que es igual al verdadero coste esperado de enfermar, pero tiene una varianza muy alta. En este caso se trata de elegir entre un enfoque que se equivoca sistemáticamente, pero nunca por mucho, y un enfoque que acierta por término medio, pero que es más variable.

26voto

Franck Dernoncourt Puntos 2128

Recomiendo encarecidamente echar un vistazo a Curso de ML de Caltech, por Yaser Abu-Mostafa, Clase 8 (Compensación de sesgo-varianza) . Aquí están los esquemas:

Digamos que estás intentando aprender la función seno:

alt text

Nuestro conjunto de entrenamiento consiste en sólo 2 puntos de datos.

Intentemos hacerlo con dos modelos, $h_0(x)=b$ y $h_1(x)=ax+b$ :

Para $h_0(x)=b$ Cuando probamos con muchos conjuntos de entrenamiento diferentes (es decir, seleccionamos repetidamente 2 puntos de datos y realizamos el aprendizaje sobre ellos), obtenemos (el gráfico de la izquierda representa todos los modelos aprendidos, el de la derecha representa su media g y su varianza (área gris)):

enter image description here

Para $h_1(x)=ax+b$ cuando probamos con muchos conjuntos de entrenamiento diferentes, obtenemos:

enter image description here

Si comparamos el modelo aprendido con $h_0$ y $h_1$ podemos ver que $h_0$ produce modelos más sencillos que $h_1$ por lo tanto, una menor desviación cuando consideramos todos los modelos aprendidos con $h_0$ pero el mejor modelo g (en rojo en el gráfico) aprendió con $h_1$ es mejor que el mejor modelo aprendido g con $h_0$ por lo tanto, una menor sesgo con $h_1$ :

enter image description here


Si se observa la evolución de la función de coste con respecto al tamaño del conjunto de entrenamiento (cifras de Coursera - Aprendizaje automático por Andrew Ng ):

Alto sesgo:

enter image description here

Alta variabilidad:

enter image description here

0 votos

+1, muy elaborativo. Tome $h_1$ como el ejemplo, hemos sacado muchas muestras diferentes $D_i$ cada uno con 2 puntos, por lo que entrenamos muchos modelos, cada uno con una estimación diferente de los parámetros del modelo $(\hat a_i,\hat b_i)$ ¿cierto? Y para una entrada específica $x_0$ , diferentes $(\hat a_i,\hat b_i)$ da una predicción diferente $\hat y_0$ por lo que el valor objetivo previsto $\hat y_0$ es una variable aleatoria que varía con la estimación del parámetro del modelo $(\hat a,\hat b)$ . Y el sesgo y la varianza en su figura se calculan para cada $x$ 's predijo $\hat y$ ¿cierto? ¿Estoy en lo cierto?

0 votos

Su función sinusoidal está invertida X-P

1 votos

Esto es confuso porque parece que te refieres a tramas que no están ahí (tal vez los "textos alternativos").

25voto

AndrejaKo Puntos 13052

En primer lugar, entendamos el significado de sesgo y varianza:

Understanding bias and Variance

Imaginemos que el centro de la región del ojo de buey rojo es el verdadero valor medio de nuestra variable aleatoria objetivo que estamos tratando de predecir. Cada vez que tomamos una muestra de observaciones y predecimos el valor de esta variable, trazamos un punto azul. Predecimos correctamente si el punto azul cae dentro de la región roja. Bias es la medida de lo lejos que están los puntos azules predichos del centro de la región roja (la media verdadera). Intuitivamente, el sesgo es la cuantificación del error. La varianza es la dispersión de nuestras predicciones.

La parte superior izquierda es la condición ideal, pero es difícil de conseguir en la práctica, y la parte inferior derecha es el peor escenario, que es fácil de conseguir en la práctica (normalmente la condición de partida para los modelos inicializados aleatoriamente). Nuestro objetivo es pasar de la situación inferior derecha (alto sesgo y alta varianza) a la situación superior izquierda (baja varianza y bajo sesgo).

Pero el problema aquí es: Desgraciadamente, conseguir la menor varianza y el menor sesgo de forma simulada es difícil. (¿Por qué? Esa es una pregunta más profunda). Cuando intentamos disminuir uno de estos parámetros (ya sea el sesgo o la varianza), el otro parámetro aumenta.

Ahora la compensación es:

Hay un punto intermedio que produce el menor error de predicción a largo plazo.

The trade-off between Bias and Variance

Estas fotos están tomadas de http://scott.fortmann-roe.com/docs/BiasVariance.html . Consulte las explicaciones con la regresión lineal y los vecinos más cercanos de K para obtener más detalles

2 votos

La primera cifra parece más bien precisión frente a exactitud?

19voto

Dipstick Puntos 4869

La idea básica es que un modelo demasiado simple no se ajustará (alto sesgo) mientras que un modelo demasiado complejo se ajustará en exceso (alta varianza) y que el sesgo y la varianza se compensan al variar la complejidad del modelo.

(Neal, 2019)

Sin embargo, mientras que el equilibrio entre el sesgo y la varianza parece mantenerse para algunos algoritmos simples como la regresión lineal, o $k$ -NN, no es tan sencillo . Resumiré brevemente algunos de los puntos expuestos en esta entrada del blog , de Neal (2019), y Neal et al (2018).

Cada vez hay más pruebas de que esto no es generalmente cierto y en algunos algoritmos de aprendizaje automático que observamos, los llamados doble descenso fenómeno. Hay algunas pruebas preliminares de que en el caso de los bosques aleatorios, los algoritmos de refuerzo de gradiente y las redes neuronales podría no ser así. Se ha observado que las redes más amplias (más neuronas) generalizan mejor. Además, como analizan Belkin et al (2019), para las redes neuronales sobreparametrizadas y los bosques aleatorios, la curva de sesgo-varianza alcanza cierto umbral, en el que el modelo se ajusta en exceso, y luego, a medida que el número de parámetros crece más allá del número de puntos de datos, el error de prueba comienza a caer de nuevo con la creciente complejidad del modelo (véase la figura del artículo reproducida a continuación).

enter image description here

Un buen ejemplo de esto fue dado por Neal (2019), y Neal et al (2018), utilizando una red neuronal simple, de una sola capa, densa, entrenada con descenso de gradiente estocástico en el subconjunto de 100 muestras de MNIST. A pesar de que el número de parámetros comienza a exceder el número de muestras, no vemos una compensación en términos de disminución del rendimiento del conjunto de pruebas.

enter image description here

Belkin et al (2019) dan un ejemplo aún más llamativo utilizando el bosque aleatorio.

enter image description here

Tal y como comenta Neal (2019), la falta de compensación sesgo-varianza para las redes neuronales era incluso visible en el ampliamente citado artículo de Geman et al (1992), que realizó el primer estudio empírico sobre este tema y lo popularizó. Además, cuando se habla del equilibrio entre sesgo y varianza, a menudo se muestra cómo el error cuadrado puede descomponerse en sesgo y varianza, sin importar que no se aplique directamente a otras métricas de error, y el hecho de que se pueda descomponer no demostrar de todos modos que hay una compensación.

Todo esto demuestra que aún no entendemos bien cómo y por qué funcionan algunos de los algoritmos modernos de aprendizaje automático, y algunas de nuestras intuiciones habituales pueden ser engañosas.


Belkin, M., Hsub, D., Maa, S., & Mandala, S. (2019). Conciliar la práctica moderna del aprendizaje automático y el equilibrio entre sesgo y varianza. stat, 1050, 10.
Neal, B. (2019). Sobre el equilibrio entre el sesgo y la varianza: los libros de texto necesitan una actualización. arXiv preprint arXiv:1912.08286.
Neal, B., Mittal, S., Baratin, A., Tantia, V., Scicluna, M., Lacoste-Julien, S., & Mitliagkas, I. (2018). Una visión moderna del equilibrio entre sesgo y varianza en las redes neuronales. arXiv preprint arXiv:1810.08591.

0 votos

Hola @Tim, ¿estás diciendo aquí que los simples experimentos de Neal et al. contradicen los hallazgos de Belkin et al.? (si entiendo bien tu explicación)

0 votos

@KirkWalla no, ambos describen un fenómeno similar.

0 votos

Ya veo, gracias Tim.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X