14 votos

¿Por qué a menudo se asume distribución gaussiana?

Citando un artículo de la Wikipedia sobre la estimación de parámetros para un clasificador naive Bayes: "un típico supuesto es que el continuo de los valores asociados con cada clase se distribuyen según una distribución de Gauss."

Entiendo que una distribución de Gauss es conveniente para el análisis de las razones. Sin embargo, hay otro en el mundo real razón para hacer esta suposición? Lo que si la población consta de dos sub-poblaciones (smart/tonta a la gente, grande/pequeño manzanas)?

3voto

mat_geek Puntos 1367

Mi respuesta está de acuerdo con la primera respuesta. El teorema del límite central dice usted que si la estadística es una suma o promedio será aproximadamente normal, bajo ciertas condiciones técnicas, independientemente de la distribución de las muestras individuales. Pero tienes razón en que a veces la gente llevar esto demasiado lejos sólo porque parece convenuent. Si la estadística es una proporción y el denominador puede ser cero o cerca de ella la proporción será demasiado heavytailed para el normal. Gosset encontró que incluso cuando se muestra de una distribución normal normalizado promedio, donde la desviación estándar de la muestra se utiliza para la normalización constante la distribución es la distribución t con n-1 grados de libertad si n es el tamaño de la muestra. En sus experimentos de campo en la Cervecería Guiness ha tamaños de muestra que podría estar en el rango de 5-10. En esos casos, el t de la distribución es similar a la distribución normal estándar en que es simétrica alrededor de 0, pero tiene mucho más pesadas colas. Tenga en cuenta que la distribución t hace converger a la normal estándar n se hace grande. En muchos casos la distribución de la que pueden ser bimodal, ya que es una mezcla de dos poblaciones. Algunas veces estas distribuciones pueden ser el ajuste como una mezcla de distribuciones normales. Pero cierto no se parecen a una distribución normal. Si usted mira las estadísticas básicas de libros de texto, usted encontrará que muchos paramétricas y continua de distribuciones discretas, que a menudo vienen en la inferencia de problemas. Para datos discretos tenemos la binomial, de Poisson, geométrica, hipergeométrica y binomial negativa para nombrar unos pocos. Continua ejemplos incluyen el test de la chi cuadrado, lognormal, Cauchy, negativa exponencial, Weibull y Gumbel.

2voto

Fu86 Puntos 116

El uso de la CLT para justificar el uso de la distribución de Gauss es una falacia común debido a la CLT se aplica a la media de la muestra, no de observaciones individuales. Por lo tanto, aumentando el tamaño de la muestra, no significa que la muestra está más cerca de normallity.

La distribución Gaussiana es comúnmente utilizado debido a que:

  1. Estimación de máxima verosimilitud, es sencillo.
  2. La inferencia bayesiana es simple (utilizando la conjugada de los priores o Jeffreys-tipo priores).
  3. Es aplicado en la mayoría de los paquetes numéricos.
  4. Hay un montón de teoría acerca de esta distribución en términos de la prueba de hipótesis.
  5. La falta de conocimiento acerca de otras opciones (más flexible). ...

Por supuesto, la mejor opción es utilizar una distribución que tiene en cuenta las características de su contexto, pero esto puede ser un reto. Sin embargo, es algo que la gente debería hacer

"Todo debe hacerse tan simple como sea posible, pero no más sencillo." (Albert Einstein)

Espero que esto ayude.

Los mejores deseos.

0voto

Andrew Puntos 126

Al menos para mí, la suposición de normalidad surge de dos (muy potente) razones:

  1. El Teorema Del Límite Central.

  2. La distribución de Gauss es una máxima entropía (con respecto a la continua versión de la entropía de Shannon) de distribución.

Creo que son conscientes de que el primer punto: si la muestra es la suma de muchas procceses, entonces, mientras una leve condiciones se cumplen, la distribución es bastante gaussiano (hay generalizaciones de la CLT donde, de hecho, no tiene que asumir que la r.v.s de la suma son idénticamente distribuidas, ver, por ejemplo, el de Lyapunov CLT).

El segundo punto es que para algunas personas (especialmente los físicos) tiene más sentido: dado el primer y segundo momentos de una distribución, la distribución de la que menos información se supone (es decir, el más conservador) con respecto a la constante de la entropía de Shannon medida (que es algo arbitrario en el caso continuo, pero, al menos para mí, totalmente objetiva, en el caso discreto, pero eso es otra historia), es la distribución gaussiana. Esta es una forma de lo que se denomina "principio de máxima entropía", que no es tan amplia debido a que el uso real de la forma de la entropía es algo arbitrario (ver este artículo de la Wikipedia para obtener más información acerca de esta medida).

Por supuesto, esta última afirmación es cierto también para el multi-variable de caso, es decir, el máximo de entropía de la distribución (de nuevo, con respecto a la continua versión de la entropía de Shannon) el primero ($\vec{\mu}$) y de segundo orden de la información (es decir, la matriz de covarianza $\mathbf{\Sigma}$), puede ser una muestra multivariante de gauss.

PD: debo añadir a la máxima entropía principio de que, según este documento, si por casualidad usted conoce el rango de variación de la variable, tienes que hacer los ajustes a la distribución que se obtiene por el principio de máxima entropía.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X