15 votos

La intuición matemática de la ecuación Bias-Variance

Me preguntó recientemente una pregunta en busca de una interpretación matemática/intuición detrás de la primaria de la ecuación que relaciona la media muestral y la varianza: $ E[X^2] = Var(X) +(E[X])^2$, geométricas o de otra manera.

Pero ahora estoy curioso acerca de las superficialmente similar sesgo de la varianza en la ecuación de equilibrio.

$$ \begin{eqnarray} \text{MSE}(\hat{\theta}) = E [(\hat{\theta}-\theta)^2 ] &=& E[(\hat{\theta} - E[\hat\theta])^2] + (E[\hat\theta] - \theta)^2\\ &=& \text{Var}(\hat\theta) + \text{Bias}(\hat\theta,\theta)^2 \\ \end{eqnarray} $$ (fórmulas de Wikipedia)

Para mí, hay una similitud superficial con el sesgo de la varianza en el equilibrio de la ecuación de regresión: tres términos con plazas y dos añadiendo a la otra. Muy Pitágoras buscando. Hay una similar vector de relación, incluyendo la ortogonalidad de todos estos elementos? O es que hay algunos otros relacionados con la interpretación matemática que se aplica?

Estoy buscando un matemático analogía con algunos otros objetos matemáticos que puedan arrojar luz. Yo no estoy en busca de la exactitud-precisión analogía que está bien cubierto aquí. Pero si hay no técnicos de las analogías que la gente se puede dar entre el sesgo y la varianza de equilibrio y mucho más básica, media-varianza de la relación, que sería demasiado grande.

20voto

jldugger Puntos 7490

La similitud es más que superficial.

El "sesgo de la varianza en la solución de compromiso" puede ser interpretado como el Teorema de Pitágoras aplicado a dos perpendiculares Euclidiana vectores: la longitud de uno es la desviación estándar y la longitud de los otros es el sesgo. La longitud de la hipotenusa es la raíz del error cuadrático medio.

Una relación fundamental

Como punto de partida, considerar esta reveladora de cálculo, válido para cualquier variable aleatoria $X$ con un finito segundo momento y cualquier número real $a$. Desde el segundo momento es finito, $X$ tiene un número finito de decir $\mu=\mathbb{E}(X)$ que $\mathbb{E}(X-\mu)=0$, de donde

$$\eqalign{ \mathbb{E}((X-a)^2) &= \mathbb{E}((X-\mu\,+\,\mu-a)^2) \\ &= \mathbb{E}((X-\mu)^2) + 2 \mathbb{E}(X-\mu)(\mu-a) + (\mu-a)^2 \\ &= \operatorname{Var}(X) + (\mu-a)^2.\la etiqueta{1} }$$

Esto muestra cómo la media del cuadrado de la desviación entre el $X$ y cualquier "punto de partida" valor " $a$ varía con $a$: es una función cuadrática de $a$, con un mínimo en $\mu$, cuando la media del cuadrado de la desviación es la varianza de $X$.

La conexión con los peritos y los prejuicios

Cualquier estimador $\hat \theta$ es una variable aleatoria debido a que (por definición) es un (medibles) función de variables aleatorias. Dejar que se juegan el papel de $X$ en el anterior, y dejar que el estimand (lo $\hat\theta$ se supone que la estimación) ser $\theta$, tenemos

$$\operatorname{MSE}(\hat\theta) = \mathbb{E}((\hat\theta-\theta)^2) = \operatorname{Var}(\hat\theta) + (\mathbb{E}(\hat\theta)-\theta)^2.$$

Volvamos a $(1)$ ahora que hemos visto cómo la declaración sobre el sesgo+varianza de un estimador es, literalmente, un caso de $(1)$. La pregunta busca de "matemáticas analogías con los objetos matemáticos." Podemos hacer más que eso mostrando que el cuadrado integrable variables aleatorias, naturalmente, puede ser hecha en un espacio Euclidiano.

Formación matemática

En un sentido muy general, una variable aleatoria es un (medibles) con un valor real de la función en un espacio de probabilidad $(\Omega, \mathfrak{S}, \mathbb{P})$. El conjunto de funciones de cuadrado integrable, que a veces se escribe " $\mathcal{L}^2(\Omega)$ (con la probabilidad de la estructura se entiende), casi es un espacio de Hilbert. Para convertirlo en uno, tenemos a confundir a cualquiera de las dos variables aleatorias $X$ $Y$ que realmente no difieren en términos de integración: es decir, podemos decir $X$ $Y$ son equivalentes siempre que

$$\mathbb{E}(|X-Y|^2) = \int_\Omega |X(\omega)-Y(\omega)|^2 d\mathbb{P}(\omega) = 0.$$

Es sencillo comprobar que esta es una verdadera relación de equivalencia: lo más importante es que, al $X$ es equivalente a $Y$ $Y$ es equivalente a $Z$, entonces necesariamente $X$ será equivalente a $Z$. Podemos, por tanto, la partición de todos cuadrado integrable variables aleatorias en clases de equivalencia. Estas clases forman el conjunto $L^2(\Omega)$. Por otra parte, $L^2$ hereda el espacio vectorial estructura de $\mathcal{L}^2$ definido por pointwise adición de valores y pointwise la multiplicación escalar. En este espacio vectorial, la función

$$X \to \left(\int_\Omega |X(\omega)|^2 d\mathbb{P}(\omega)\right)^{1/2}=\sqrt{\mathbb{E}(|X|^2)}$$

es una norma, a menudo escrito $||X||_2$. Esta norma hace $L^2(\Omega)$ en un espacio de Hilbert. Pensar en un espacio de Hilbert $\mathcal{H}$ como un "espacio Euclídeo de infinitas dimensiones." Cualquier finito-dimensional subespacio $V\subset \mathcal{H}$ hereda la norma de$\mathcal{H}$$V$, con esta norma, es un espacio Euclídeo: podemos hacer la geometría Euclidiana.

Por último, tenemos el hecho de que es especial para espacios de probabilidad (más que en la medida de los espacios): debido a que $\mathbb{P}$ es una probabilidad, es limitada (por $1$), donde la constante de funciones $\omega\to a$ (para cualquier número real fijo $a$) son de cuadrado integrable variables aleatorias con finito de normas.

Una interpretación geométrica

Considere la posibilidad de cualquier cuadrado integrable variable aleatoria $X$, considerado como un representante de su clase de equivalencia en $L^2(\Omega)$. Tiene una media de $\mu=\mathbb{E}(X)$ a que (como se puede comprobar) sólo depende de la clase de equivalencia de a $X$. Deje $\mathbf{1}:\omega\to 1$ ser la clase de la constante de la variable aleatoria.

$X$ $\mathbf{1}$ generar un Euclidiana subespacio $V\subset L^2(\Omega)$ cuya dimensión es en la mayoría de las $2$. En este subespacio, $||X||_2^2 = \mathbb{E}(X^2)$ es el cuadrado de la longitud de $X$ $||a\,\mathbf{1}||_2^2 = a^2$ es el cuadrado de la longitud de la constante variable aleatoria $\omega\to a$. Es fundamental que el $X-\mu\mathbf{1}$ es perpendicular a $\mathbf{1}$. (Una definición de $\mu$ es que es el único número para que este sea el caso.) Relación $(1)$ puede ser escrito

$$||X - a\mathbf{1}||_2^2 = ||X - \mu\mathbf{1}||_2^2 + ||(a-\mu)\mathbf{1}||_2^2.$$

De hecho es precisamente el Teorema de Pitágoras, básicamente de la misma forma conocida de 2500 años. El objeto $$X-a\mathbf{1} = (X-\mu\mathbf{1})-(a-\mu)\mathbf{1}$$ is the hypotenuse of a right triangle with legs $X-\mu\mathbf{1}$ and $(a-\mu)\mathbf{1}$.

Si a usted le gusta la matemática analogías, a continuación, usted puede usar cualquier cosa que puede ser expresado en términos de la hipotenusa de un triángulo en un espacio Euclidiano. La hipotenusa representará el "error" y que las piernas se representan los prejuicios y las desviaciones de la media.

4voto

mat_geek Puntos 1367

Esta es una manera de pensar visualmente acerca de la precisión y la varianza sesgo de comercio. Supongamos que usted está buscando en un objetivo y hacer muchas fotos que están dispersos cerca del centro de la diana de tal manera que no hay sesgo. A continuación, la precisión se determina únicamente por la varianza y cuando la varianza es pequeña, la pistola es exacta.

Ahora vamos a considerar un caso donde hay una gran precisión, pero de gran sesgo. En este caso las tomas están dispersos alrededor de un punto lejos del centro. Algo está arruinando el aimpoint pero alrededor de este objetivo cada punto de disparo está cerca de ese nuevo objetivo de punto. El tirador preciso, pero muy inexacto debido a que el sesgo.

Hay otras situaciones en las que las tomas son precisas debido a que de pequeño sesgo y alta precisión. Lo que queremos es que no hay sesgo y una pequeña desviación o variación pequeña con un pequeño sesgo. En algunos problemas estadísticos que no se puede tener ambas cosas. Así MSE se convierte en la medida de la precisión que se desea utilizar, que se juega la varianza sesgo de comercio y minimzing MSE debería ser el objetivo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X