44 votos

¿Por qué debemos usar errores t en lugar de errores normales?

En este post del blog de Andrew Gelman, es el siguiente pasaje:

El Bayesiano de modelos de hace 50 años parece irremediablemente simple (excepto, de por supuesto, para los problemas simples), y espero que el Bayesiano de modelos de hoy parece irremediablemente simple, de 50 años, por lo tanto. (Solo por un simple ejemplo: se debe probablemente de forma rutinaria el uso de t en lugar de la normal de los errores sólo acerca de everwhere, pero todavía no hacerlo, de la familiaridad, la costumbre, las matemáticas y la comodidad. Estas pueden ser buenas razones–en la ciencia como en la política, el conservadurismo tiene muchos buenos argumentos en su favor–, pero creo que al final nos convertimos en cómodo con más modelos complicados, vamos a mover en que dirección).

¿Por qué debemos "ser rutinariamente el uso de t en lugar de la normal de errores en casi todas partes"?

58voto

kjetil b halvorsen Puntos 7012

Porque, suponiendo normalidad de los errores es lo mismo que asumir que los grandes no se producen errores! La distribución normal tiene así que la luz de las colas, que los errores fuera de $\pm3$ desviaciones estándar tienen muy baja probabilidad de errores fuera de $\pm6$ desviaciones estándar son efectivamente imposible. En la práctica, la suposición de que rara vez es cierto. Al analizar pequeña, ordenada de conjuntos de datos de los experimentos diseñados, puede que esto no importa mucho, si hacemos un buen análisis de los residuales. Con los datos de menor calidad, lo que podría significar mucho más.

Cuando el uso de la probabilidad (o bayesiano), los métodos, el efecto de esta normalidad (como se dijo anteriormente, efectivamente este es el "no hay grandes errores"-asunción!) es para hacer la inferencia muy poco robusto. Los resultados de los análisis son demasiado fuertemente influenciado por los grandes errores! Esto debe ser así, ya que asume que "no hay grandes errores" de las fuerzas de nuestros métodos para interpretar los errores grandes como los pequeños errores, y eso sólo puede suceder mediante el movimiento de la media del valor de parámetro para hacer que todos los errores más pequeños. Una forma de evitar esto es utilizar los llamados "métodos robustos", ver http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf

Pero Andrew Gelman no va a ir a por este, desde métodos robustos se presenta generalmente en forma altamente no-bayesiano. El uso de t-distribuido errores en la probabilidad/bayesiano de modelos, es una manera diferente para obtener métodos robustos, como el $t$-distribución tiene colas más pesadas que las normales, por lo que permite una mayor proporción de grandes errores. El número de grados de libertad parámetro debe ser fijado de antemano, no se estima a partir de los datos, ya que dicha estimación se destruyen las propiedades de robustez del método (también es un problema muy difícil, la probabilidad de la función de $\nu$, el número de grados de libertad, puede ser ilimitada, que conduce a muy ineficiente (incluso inconsistente) de los estimadores).

Si, por ejemplo, se puede pensar (miedo) que tanto como 1 en diez observaciones podrían ser "grandes errores" (por encima de 3 sd), entonces usted podría utilizar una $t$-distribución con 2 grados de libertad, aumentando ese número, si la proporción de grandes errores es creada para ser más pequeñas.

16voto

andynormancx Puntos 234

No es sólo una cuestión de "más pesadas colas" - hay un montón de distribuciones que son en forma de campana y se han pesadas colas.

La distribución T es la parte posterior de la predicción del modelo Gaussiano. Si usted hace una Gaussiana supuesto, pero han finito de pruebas, el resultado del modelo es necesariamente lo que no son centrales a escala t-distribuido predicciones. En el límite, como la cantidad de evidencia que usted tiene se extiende hacia el infinito, se termina con Gaussiano predicciones desde el límite de la t de distribución es Gaussiana.

¿Por qué sucede esto? Porque con una cantidad finita de evidencia, no es la incertidumbre en los parámetros del modelo. En el caso del modelo Gaussiano, la incertidumbre en la media no haría sino aumentar la varianza (es decir, la posterior predicción de una Gaussiana con conocida la varianza es todavía de Gauss). Pero la incertidumbre acerca de la varianza es lo que hace que las pesadas colas. Si el modelo se entrena con un número ilimitado de pruebas, ya no hay incertidumbre en la varianza (o la media) y usted puede utilizar su modelo Gaussiano predicciones.

Este argumento se aplica para un modelo Gaussiano. También se aplica a un parámetro que se infiere cuyas probabilidades son de Gauss. Dado finito de datos, la incertidumbre sobre el parámetro t-distribuido. Donde hay Normal supuestos (con desconocidos media y varianza), y finito de datos, hay t-distribuido posterior predictives.

Hay similares posterior predicción de distribuciones para todos los Bayesiano de modelos. Gelman es lo que sugiere que deberíamos estar usando esos. Sus preocupaciones se mitigaría el suficiente evidencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X