Porque, suponiendo normalidad de los errores es lo mismo que asumir que los grandes no se producen errores! La distribución normal tiene así que la luz de las colas, que los errores fuera de $\pm3$ desviaciones estándar tienen muy baja probabilidad de errores fuera de $\pm6$ desviaciones estándar son efectivamente imposible. En la práctica, la suposición de que rara vez es cierto. Al analizar pequeña, ordenada de conjuntos de datos de los experimentos diseñados, puede que esto no importa mucho, si hacemos un buen análisis de los residuales. Con los datos de menor calidad, lo que podría significar mucho más.
Cuando el uso de la probabilidad (o bayesiano), los métodos, el efecto de esta normalidad (como se dijo anteriormente, efectivamente este es el "no hay grandes errores"-asunción!) es para hacer la inferencia muy poco robusto. Los resultados de los análisis son demasiado fuertemente influenciado por los grandes errores! Esto debe ser así, ya que asume que "no hay grandes errores" de las fuerzas de nuestros métodos para interpretar los errores grandes como los pequeños errores, y eso sólo puede suceder mediante el movimiento de la media del valor de parámetro para hacer que todos los errores más pequeños. Una forma de evitar esto es utilizar los llamados "métodos robustos", ver http://www.stats.ox.ac.uk/pub/StatMeth/Robust.pdf
Pero Andrew Gelman no va a ir a por este, desde métodos robustos se presenta generalmente en forma altamente no-bayesiano. El uso de t-distribuido errores en la probabilidad/bayesiano de modelos, es una manera diferente para obtener métodos robustos, como el $t$-distribución tiene colas más pesadas que las normales, por lo que permite una mayor proporción de grandes errores. El número de grados de libertad parámetro debe ser fijado de antemano, no se estima a partir de los datos, ya que dicha estimación se destruyen las propiedades de robustez del método (también es un problema muy difícil, la probabilidad de la función de $\nu$, el número de grados de libertad, puede ser ilimitada, que conduce a muy ineficiente (incluso inconsistente) de los estimadores).
Si, por ejemplo, se puede pensar (miedo) que tanto como 1 en diez observaciones podrían ser "grandes errores" (por encima de 3 sd), entonces usted podría utilizar una $t$-distribución con 2 grados de libertad, aumentando ese número, si la proporción de grandes errores es creada para ser más pequeñas.