1) ¿por Qué el daño causado por la introducción de sesgo es menor en comparación con el aumento en la varianza?
No, sólo que normalmente es. Si el equilibrio es la pena depende de la función de pérdida. Pero las cosas que nos importan en la vida real son a menudo similares a los cuadrados de error (por ejemplo, nos preocupamos más por uno de los grandes errores de alrededor de dos errores de la mitad del tamaño).
Como contraejemplo a imaginar que de admisión de la universidad encoger a la gente del SAT un poco hacia la media de la SAT para que sus datos demográficos (sin embargo definidos). Si se hace correctamente, esto reducirá la varianza y el error cuadrático medio de las estimaciones de (algún tipo de) capacidad de la persona, mientras que la introducción de sesgo. La mayoría de la gente en mi humilde opinión argumentan que una desventaja es inaceptable.
2) ¿por Qué siempre el trabajo?
3) ¿Qué es lo interesante de 0 (el origen)? Claramente se puede reducir a cualquier lugar que nos gusta (es decir, Stein estimador), pero va a funcionar tan bien como el origen?
Creo que esto se debe a que por lo general se reduce coeficientes o estimaciones del efecto. Hay razones para creer que la mayoría de los efectos no son grandes (ver, por ejemplo, Andrew Gelman tomar). Una manera de decirlo es que un mundo en el que todo influye en todo, con un fuerte efecto es un violento mundo imprevisible. Puesto que nuestro mundo es lo suficientemente previsible como para que nos dejen vivir vidas largas y construir semi-estable civilizaciones, se deduce que la mayoría de los efectos no son grandes.
Dado que la mayoría de los efectos no son grandes, es útil injustamente reducir las pocas realmente grandes, mientras que también correctamente la reducción de la carga de efectos insignificantes.
Creo que esto es sólo una propiedad de nuestro mundo y que probablemente podría construir auto-consistente mundos donde la contracción no es práctico (lo más probable es que al hacer la media del error cuadrado de un práctico de la pérdida de la función). Simplemente no pasar a ser el mundo en el que vivimos.
Por otro lado, cuando pensamos en la contracción como una distribución previa en el análisis Bayesiano, hay casos en los que la contracción a 0 activamente perjudiciales en la práctica.
Un ejemplo es la escala de longitud en Gaussiano Procesos (donde 0 es problemático) de la recomendación en el Stan del manual es el uso de un antes que pone insignificante peso cercano a cero, es decir, con eficacia "reducción" valores pequeños lejos del cero. Del mismo modo, se recomienda priores de la dispersión en la distribución binomial negativa efectivamente encogimiento de cero. Por último, pero no menos importante, siempre que la distribución normal es parametrizadas con precisión (como en INLA), es útil el uso inverso de los rayos gamma o los otros antes de las distribuciones que no se atreven a cero.
4) ¿Por diversos universal esquemas de codificación prefieren el menor número de bits en torno al origen? Son estas hipótesis más probable?
Ahora esta es la manera de salir de mi profundidad, pero Wikipedia dice que en universal esquema de codificación esperamos que (por definición) $P(i) ≥ P(i + 1)$ para todos los positivos $i$ por lo que esta propiedad parece ser una simple consecuencia de la definición y no está relacionada con la contracción (o me estoy perdiendo algo?)