18 votos

¿Por qué la contracción realmente funciona? ¿Qué tiene de especial el 0?

Ya hay un post en este sitio hablando del mismo tema: ¿Por qué la contracción de trabajo?

Pero, aunque las respuestas son muy populares, no creo que el quid de la cuestión está realmente dirigida. Es bastante claro que la introducción de algún sesgo en la estimación trae en la reducción en la varianza y puede mejorar la estimación de la calidad. Sin embargo:

1) ¿por Qué el daño causado por la introducción de sesgo es menor en comparación con el aumento en la varianza?

2) ¿por Qué siempre el trabajo? Por ejemplo, en el caso de la Regresión Ridge: el teorema de existencia

3) ¿Qué es lo interesante de 0 (el origen)? Claramente se puede reducir a cualquier lugar que nos gusta (es decir, Stein estimador), pero va a funcionar tan bien como el origen?

4) ¿Por diversos universal esquemas de codificación prefieren el menor número de bits en torno al origen? Son estas hipótesis simplemente más probable?

Respuestas con referencias a la probada teoremas o resultados obtenidos son los esperados.

8voto

Jeson Park Puntos 116

1) ¿por Qué el daño causado por la introducción de sesgo es menor en comparación con el aumento en la varianza?

No, sólo que normalmente es. Si el equilibrio es la pena depende de la función de pérdida. Pero las cosas que nos importan en la vida real son a menudo similares a los cuadrados de error (por ejemplo, nos preocupamos más por uno de los grandes errores de alrededor de dos errores de la mitad del tamaño).

Como contraejemplo a imaginar que de admisión de la universidad encoger a la gente del SAT un poco hacia la media de la SAT para que sus datos demográficos (sin embargo definidos). Si se hace correctamente, esto reducirá la varianza y el error cuadrático medio de las estimaciones de (algún tipo de) capacidad de la persona, mientras que la introducción de sesgo. La mayoría de la gente en mi humilde opinión argumentan que una desventaja es inaceptable.

2) ¿por Qué siempre el trabajo?

3) ¿Qué es lo interesante de 0 (el origen)? Claramente se puede reducir a cualquier lugar que nos gusta (es decir, Stein estimador), pero va a funcionar tan bien como el origen?

Creo que esto se debe a que por lo general se reduce coeficientes o estimaciones del efecto. Hay razones para creer que la mayoría de los efectos no son grandes (ver, por ejemplo, Andrew Gelman tomar). Una manera de decirlo es que un mundo en el que todo influye en todo, con un fuerte efecto es un violento mundo imprevisible. Puesto que nuestro mundo es lo suficientemente previsible como para que nos dejen vivir vidas largas y construir semi-estable civilizaciones, se deduce que la mayoría de los efectos no son grandes.

Dado que la mayoría de los efectos no son grandes, es útil injustamente reducir las pocas realmente grandes, mientras que también correctamente la reducción de la carga de efectos insignificantes.

Creo que esto es sólo una propiedad de nuestro mundo y que probablemente podría construir auto-consistente mundos donde la contracción no es práctico (lo más probable es que al hacer la media del error cuadrado de un práctico de la pérdida de la función). Simplemente no pasar a ser el mundo en el que vivimos.

Por otro lado, cuando pensamos en la contracción como una distribución previa en el análisis Bayesiano, hay casos en los que la contracción a 0 activamente perjudiciales en la práctica.

Un ejemplo es la escala de longitud en Gaussiano Procesos (donde 0 es problemático) de la recomendación en el Stan del manual es el uso de un antes que pone insignificante peso cercano a cero, es decir, con eficacia "reducción" valores pequeños lejos del cero. Del mismo modo, se recomienda priores de la dispersión en la distribución binomial negativa efectivamente encogimiento de cero. Por último, pero no menos importante, siempre que la distribución normal es parametrizadas con precisión (como en INLA), es útil el uso inverso de los rayos gamma o los otros antes de las distribuciones que no se atreven a cero.

4) ¿Por diversos universal esquemas de codificación prefieren el menor número de bits en torno al origen? Son estas hipótesis más probable?

Ahora esta es la manera de salir de mi profundidad, pero Wikipedia dice que en universal esquema de codificación esperamos que (por definición) $P(i) ≥ P(i + 1)$ para todos los positivos $i$ por lo que esta propiedad parece ser una simple consecuencia de la definición y no está relacionada con la contracción (o me estoy perdiendo algo?)

0voto

Doug Kavendek Puntos 1244

Ridge, lazo y red elástica son similares a los métodos Bayesianos con priores centrada en el cero -- véase, por ejemplo, Aprendizaje Estadístico con Dispersión por Hastie, Tibshirani y Wainwright, sección 2.9 Lq Penalties and Bayes Estimates: "Hay también un Bayesiano de vista de estos estimadores. ... Esto significa que el lazo de estimación es el Bayesiano MAPA (máximo aposteriori) estimador mediante un Laplaciano antes".

Una manera de responder a su pregunta (what's so special about zero?) es que los efectos que estamos estimando son cero en promedio, y que tienden a ser pequeñas (i.e nuestra priores debe estar centrada en torno a cero). Reducción de las estimaciones a cero entonces es óptimo en un Bayesiano de sentido, y su lazo ridge y elástica redes pueden ser pensado a través de ese lente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X