22 votos

Razones para que los datos se distribuyan normalmente

¿Cuáles son algunos teoremas que podrían explicar (es decir, generativamente) por qué se puede esperar que los datos del mundo real se distribuyan normalmente?

Que yo sepa, hay dos:

  1. El Teorema del Límite Central (por supuesto), que nos dice que la suma de varias variables aleatorias independientes con media y varianza (aunque no estén idénticamente distribuidas) tiende a distribuirse normalmente

  2. Sean X e Y RV's continuas e independientes con densidades diferenciables tales que su densidad conjunta sólo depende de $x^2$ + $y^2$ . Entonces X e Y son normales.

(cross-post de mathexchange )

Editar: Para aclarar, no estoy haciendo ninguna afirmación sobre la distribución normal de los datos del mundo real. Sólo estoy preguntando por los teoremas que pueden dar una idea de qué tipo de procesos pueden conducir a datos con distribución normal.

7 votos

Puede encontrar material interesante relacionado en nuestro hilo en stats.stackexchange.com/questions/4364 . Para evitar posibles confusiones entre algunos lectores, me gustaría añadir (y espero que sea su intención) que su pregunta no debe interpretarse como una sugerencia de que todos o incluso la mayoría de los conjuntos de datos reales pueden aproximarse adecuadamente mediante una distribución normal. Más bien, en algunos casos, cuando se dan ciertas condiciones, podría ser útil emplear una distribución normal como marco de referencia para entender o interpretar los datos: ¿cuáles podrían ser esas condiciones?

0 votos

Gracias por el enlace. Y es exactamente así, gracias por la aclaración. Lo editaré en el post original.

0 votos

@user43228, " Hay, por supuesto, toneladas de otras distribuciones que surgen en problemas del mundo real que no parecen normales en absoluto. " askamathematician.com/2010/02/

19voto

bsbk Puntos 568

Muchas distribuciones límite de los VR discretos (poisson, binomial, etc) son aproximadamente normales. Piense en el plinko. En casi todos los casos en los que se mantiene la normalidad aproximada, la normalidad sólo se aplica a las muestras grandes.

La mayoría de los datos del mundo real NO tienen una distribución normal. Un artículo de Micceri (1989) llamado " El unicornio, la curva normal y otras criaturas improbables " examinó 440 medidas de rendimiento y psicométricas a gran escala. Encontró una gran variabilidad en las distribuciones con respecto a sus momentos y no mucha evidencia de normalidad (incluso aproximada).

En un artículo de 1977 de Steven Stigler titulado " ¿Funcionan los estimadores robustos con datos reales? "Utilizó 24 conjuntos de datos recogidos de los famosos intentos del siglo XVIII de medir la distancia de la Tierra al Sol y de los intentos del siglo XIX de medir la velocidad de la luz. En la tabla 3, el autor presenta la asimetría y la curtosis de las muestras. Los datos son de cola pesada.

En estadística, a menudo asumimos la normalidad porque hace que la máxima verosimilitud (o algún otro método) sea conveniente. Sin embargo, lo que muestran los dos artículos citados anteriormente es que esta suposición es a menudo débil. Por eso son útiles los estudios de robustez.

4 votos

La mayor parte de este post es genial, pero el párrafo introductorio me molesta porque podría ser fácilmente malinterpretado. Es parece para decir -de forma bastante explícita- que, en general, una "muestra grande" tendrá una distribución normal. A la luz de sus comentarios posteriores, no creo que haya querido decir eso.

0 votos

Debería haber sido más claro: no estoy sugiriendo que la mayoría de los datos del mundo real se distribuyan normalmente. Pero es un gran punto a plantear. Y asumo que lo que quieres decir es que la distribución binomial con n grande es normal, y que la distribución poisson con media grande es normal. ¿Qué otras distribuciones tienden a la normalidad?

0 votos

Gracias, he editado el primer párrafo. Véase Wald y Wolfowitz (1944) para un teorema sobre formas lineales bajo permutación, por ejemplo. Es decir, demostraron que la estadística t de dos muestras bajo permutación es asintóticamente normal.

11voto

kevin Puntos 311

También existe una justificación teórica de la información para el uso de la distribución normal. Dada la media y la varianza, la distribución normal tiene la máxima entropía entre todas las distribuciones de probabilidad de valor real. Hay muchas fuentes que discuten esta propiedad. Se puede encontrar una breve aquí . Una discusión más general sobre la motivación para utilizar la distribución gaussiana que incluye la mayoría de los argumentos mencionados hasta ahora puede encontrarse en ce artículo de la revista Signal Processing.

6 votos

Esto es al revés, como yo lo entiendo. Se trata de que la suposición de normalidad es, en un sentido estricto, una suposición débil. No veo qué implica eso sobre los datos del mundo real. Podrías también argumentar que las curvas son típicamente rectas porque esa es la suposición más simple que puedes hacer sobre la curvatura. La epistemología no limita la ontología. Si la referencia que citas va más allá, por favor, detalla los argumentos.

3voto

Aksakal Puntos 11351

En física es el CLT el que se suele citar como razón para tener errores de distribución normal en muchas mediciones.

Las dos distribuciones de errores más comunes en la física experimental son la normal y la de Poisson. Esta última suele encontrarse en las mediciones de recuento, como la desintegración radiactiva.

Otra característica interesante de estas dos distribuciones es que una suma de variables aleatorias de Gauss y Poisson pertenece a Gauss y Poisson.

Existen varios libros sobre estadística en ciencias experimentales como ce uno:Gerhard Bohm, Günter Zech, Introducción a la estadística y al análisis de datos para físicos, ISBN 978-3-935702-41-6

0voto

Andrew Puntos 629

La CLT es extremadamente útil cuando se hacen inferencias sobre cosas como la media de la población porque llegamos a ella calculando algún tipo de combinación lineal de un montón de medidas individuales. Sin embargo, cuando intentamos hacer inferencias sobre observaciones individuales, especialmente las futuras ( Por ejemplo, (intervalos de predicción), las desviaciones de la normalidad son mucho más importantes si nos interesan las colas de la distribución. Por ejemplo, si tenemos 50 observaciones, estamos haciendo una extrapolación muy grande (y un acto de fe) cuando decimos algo sobre la probabilidad de que una observación futura se aleje al menos 3 desviaciones estándar de la media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X