56 votos

Desacreditar mal CLT declaración

El teorema del límite central (CLT) da algunas buenas propiedades de convergencia a una distribución normal. Antes de estudiar las estadísticas formalmente, yo estaba extremadamente bajo la impresión errónea de que la CLT, dijo que los datos se acercó a la normalidad.

Ahora me encuentro discutiendo con los colaboradores acerca de esto. Yo digo que $68\%$ de los datos no necesitan estar dentro de una desviación estándar de la media cuando tenemos distribuciones no normales. Que estoy de acuerdo, pero decir que, por la CLT, ya que tenemos muchas observaciones (probablemente de 50.000), nuestros datos son muy cercanos a lo normal, por lo que podemos utilizar la regla empírica y decir que $68\%$ de los datos están dentro de una desviación estándar de la media. Este es, por supuesto, falso. La población no le importa cuántas observaciones se dibujan de la misma; la población es la población, ya sea que nos muestra de ella o no!

¿Cuál sería una buena manera de explicar por qué el teorema del límite central no es acerca de la distribución empírica convergentes?

51voto

icelava Puntos 548

Como whuber notas, se puede señalar siempre a sus colaboradores a un binario de la distribución discreta. Pero se podría considerar que "hacer trampa" y retirarse a los más débiles de la afirmación de que la propuesta de declaración sólo se aplica a distribuciones continuas.

Así que el uso de la distribución uniforme en la unidad de intervalo de $[0,1]$. Tiene una media de $\mu=0.5$, una variación de $\frac{1}{12}$, por lo tanto una desviación estándar de $\sigma=\frac{1}{\sqrt{12}}\approx 0.289$. Pero, por supuesto, el intervalo de $[\mu-\sigma,\mu+\sigma]\approx[0.211,0.789]$ de la longitud de la $2\sigma\approx 0.577$ sólo contiene $57.7\%$ de su base de datos (más específicamente: como el tamaño de la muestra aumenta, la proporción de los enfoques $0.577$), no $68\%$, no importa cómo muchos puntos de datos que se muestra.

41voto

Aaron Puntos 36

Esto es bastante ubicuo malentendido con el teorema del límite central, que también he encontrado en mi estadística de la enseñanza. A través de los años me he encontrado con este problema tan a menudo que he desarrollado un método Socrático para tratar con él. Me identificar a un estudiante que ha aceptado esta idea y, a continuación, involucrar al estudiante a descubrir lo que este sería lógicamente implica. Es bastante simple para llegar a la reductio ad absurdum de la falsa versión del teorema, que es que cada secuencia de variables aleatorias IID tiene una distribución normal. Una típica conversación sería algo como esto.

Maestro: he notado en esta asignación pregunta que usted dijo que debido a que $n$ es grande, los datos son aproximadamente distribuidos normalmente. Puede que me lleve a través de su razonamiento para que poco?

Estudiante: Es que mal?

Maestro: no sé. Vamos a echar un vistazo.

Estudiante: Bueno, he usado el teorema de la que hablamos en clase; que principal que usted ha mencionado un montón de veces. Se me olvida el nombre.

Maestro: El teorema central del límite?

Estudiante: Sí, el teorema del límite central.

Maestro: Grandes, y cuando hace que el teorema de aplicar?

Estudiante: creo que si las variables son IID.

Profesor: Y tiene varianza finita.

Estudiante: Sí, y varianza finita.

Maestro: Bien, entonces las variables aleatorias tienen algunos fijos de distribución con varianza finita, ¿es eso cierto?

Estudiante: Sí.

Profesor: Y la distribución no cambia ni nada?

Estudiante: No, son IID con un fijo de distribución.

Maestro: Bien grandes, así que déjame ver si puedo afirmar, por el teorema. El teorema del límite central dice que si tienes un IID secuencia de variables aleatorias con varianza finita, y se toma una muestra de $n$ de ellos, entonces a medida que el tamaño de la muestra $n$ se hace grande la distribución de las variables aleatorias converge a una distribución normal. Es ese derecho?

Estudiante: Sí, así lo creo.

Maestro: Bien grande, así que vamos a pensar acerca de lo que eso podría significar. Supongamos que tengo una secuencia como la que. Si me dicen, un millar de valores de la muestra, ¿cuál es la distribución de las variables aleatorias?

Estudiante: Es aproximadamente una distribución normal.

Maestro: ¿Cómo cerrar?

Estudiante: Muy cerca, creo.

Maestro: Bien, ¿y si me tomo un mil millones de valores de la muestra. Cómo cerrar ahora?

Estudiante: Muy cerca diría yo.

Profesor: Y si tenemos una secuencia de estas cosas, entonces, en teoría, podemos tomar $n$ tan alto como queramos no podemos? Así que podemos hacer la distribución lo más cercano a una distribución normal, como queremos.

Estudiante: Sí.

Maestro: Así que vamos a decir nosotros tomamos $n$ bastante grande que estamos felices de decir que las variables aleatorias, básicamente, tienen una distribución normal. Y eso es un fijo de distribución de la derecha?

Estudiante: Sí.

Profesor: Y son IID derecho? Estas variables aleatorias son IID?

Estudiante: Sí, son IID.

Maestro: Bien, por lo que todos tienen la misma distribución.

Estudiante: Sí.

Maestro: Bien, lo que significa que el primer valor de la secuencia, también tiene una distribución normal. Es ese derecho?

Estudiante: Sí. Quiero decir, es una aproximación, pero sí, si $n$ es realmente grande, que efectivamente tiene una distribución normal.

Maestro: Bien grandes. Y así lo hace el segundo valor en la secuencia, y así sucesivamente, ¿verdad?

Estudiante: Sí.

Maestra: muy Bien, así que en realidad, tan pronto como nos pusimos de muestreo, ya empezábamos a tener los valores que son esencialmente normales distribuidas. Realmente no es necesario esperar hasta que $n$ se hace grande antes de que comenzara a suceder.

Estudiante: Hmmm. No estoy seguro. Eso suena mal. El teorema dice que se necesita un gran $n$, por lo que supongo que creo que no se puede aplicar si sólo muestra un pequeño número de valores.

Maestro: Bien, entonces vamos a decir que somos de muestreo de mil millones de valores. A continuación, tenemos un gran $n$. Y hemos establecido que esto significa que el primer par de variables aleatorias en la secuencia se distribuye normalmente, con una muy buena aproximación. Si eso es cierto, no podemos simplemente dejar de muestreo temprano? Decir que se va a probar mil millones de valores, pero luego de detener el muestreo después de que el primer valor. Fue que la variable aleatoria sigue una distribución normal?

Estudiante: creo que tal vez no lo es.

Maestro: Bien, así que en algún punto de sus cambios en la distribución?

Estudiante: no estoy seguro. Estoy un poco confundido acerca de esto.

Maestro: Hmmm, así que parece que tenemos algo extraño aquí. ¿Por qué no tienen otra lectura del material sobre el teorema central del límite y ver si usted puede averiguar cómo resolver esa contradicción. Vamos a hablar más acerca de ella.

Que es un enfoque posible, que busca reducir la falsa teorema de abajo a la reductio que dice que cada IID secuencia (con varianza finita) debe estar compuesto de la normal de variables aleatorias. El estudiante va a llegar a esta conclusión, y darse cuenta de que algo está mal, o que va a defender en contra de esta conclusión diciendo que los cambios en la distribución como $n$ se hace grande. De cualquier manera, esto generalmente provoca que algunos más pensamiento que puede conducir a la re-leer el teorema. Aquí es otro enfoque:

Profesor: Vamos a ver esto de otra manera. Supongamos que tenemos un IID secuencia de variables aleatorias a partir de alguna otra distribución; uno que es no una distribución normal. Es eso posible? Por ejemplo, podríamos tener una secuencia de variables aleatorias que representan el resultado de tirón de la moneda, a partir de la distribución de Bernoulli?

Estudiante: Sí, podemos tener.

Maestro: bien, muy Bien. Y estos son todos los IID valores, así que, de nuevo, todos ellos tienen la misma distribución. Para cada variable aleatoria en la que la secuencia va a tener una distribución que no es una distribución normal, ¿verdad?

Estudiante: Sí.

Maestro: En realidad, en este caso, cada valor de la secuencia será el resultado de un tirón de la moneda, que hemos fijado como cero o uno. Es ese derecho?

Estudiante: Sí, siempre y cuando le ponga la etiqueta de esa manera.

Maestro: bien, muy Bien. Así que si todos los valores de la secuencia de ceros o unos, no importa cómo muchos de ellos nos muestra, siempre vamos a obtener un histograma que muestra los valores en cero y el uno, ¿verdad?

Estudiante: Sí.

Maestro: Bien. Y crees que si nos muestra más y más valores, vamos a acercarnos más y más a la verdadera distribución? Como, si se trata de una feria de la moneda, no el histograma finalmente convergen a donde la frecuencia relativa de los bares están a la misma altura?

Estudiante: eso creo. Yo creo que sí.

Maestro: creo que tienes razón. De hecho, llamamos a que el resultado de la "ley de los grandes números". De todos modos, me parece que tiene un poco de un problema aquí no es. Si nos muestra un gran número de los valores, a continuación, el teorema del límite central dice que converge a una distribución normal, pero suena como la "ley de los grandes números" dice que en realidad convergen a la verdadera distribución, que no es una distribución normal. De hecho, es una distribución que es solo probabilidades en el valor cero y el valor, que no se parece en nada a la distribución normal. Así que es?

Estudiante: creo que cuando $n$ es grande se parece a una distribución normal.

Maestro: Así describen a mí. Digamos que hemos volteado la moneda de un billón de veces. Describir la distribución de los resultados y explicar por que se parece a una distribución normal.

Estudiante: no estoy muy seguro de cómo hacerlo.

Maestro: Bien. Bien, ¿está usted de acuerdo que si tenemos un mil millones de la moneda para decidir, todos los resultados son ceros y unos?

Estudiante: Sí.

Maestro: Bien, así describir lo que su histograma parece.

Estudiante: Es sólo dos bares en los valores.

Maestro: Bien, entonces no "curva de campana" en forma?

Estudiante: Sí, yo creo que no.

Maestro: Hmmm, así que tal vez el teorema del límite central no decir lo que pensamos. ¿Por qué no leer el material en el teorema del límite central de nuevo y ver si usted puede averiguar lo que dice. Vamos a hablar más acerca de ella.

19voto

En_t8 Puntos 409

El teorema del límite central establece que la media de los datos distribuidos normalmente como el tamaño de la muestra aumenta, se dice nada acerca de los datos en sí. Otra forma de decirlo es la distribución del parámetro (media) es normal, pero que es completamente independiente de la distribución de la base de datos.

La mayor parte del valor de la CLT viene del hecho de que usted puede comparar las muestras que no se distribuye normalmente el uno al otro (basado únicamente en el hecho de que, debido a la CLT, usted sabe cómo sus medios debe comportarse).

Creo que cuando esto se pone confuso es que sólo porque usted puede comparar dos muestras significa para cada uno de los demás en base a unas pruebas, que asume la normalidad (por ejemplo. t-test) no significa que usted debe. (es decir, la comparación de medias de dos distribuciones exponenciales no podría decirte lo que piensa, o dos bi-modal de las distribuciones, o un bi-modal con un uni-modal de la distribución, etc).

La pregunta que la mayoría de la gente debe hacer es, "es la media (o una diferencia en el medio) una medida útil, dada la distribución de los datos de mi". Sólo si la respuesta a esta pregunta es sí, debe proceder a la comparación de las medias (por lo tanto depender de la CLT).

Por no hacer esta pregunta, muchas personas caen en la siguiente (aproximadamente indicado) falacia lógica:

La CT se aplica, por lo que puedo comparar medias. Y puedo comparar, porque significa que están distribuidos normalmente. Esta comparación debe ser significativo, ya que la CLT dice que puedo hacerlo (y la CLT es muy potente). La comparación y la prueba la estoy usando más intuitiva (o sólo) tiene sentido cuando los datos están distribuidos normalmente, y después de todo, la media es normalmente distribuido, así que mis datos deben ser distribuidos normalmente demasiado!

Para responder directamente a la pregunta, usted puede:

  1. Mostrar la definición, hay que señalar que la CLT sólo hace una afirmación acerca de la distribución de la media se aproxima a la normalidad, hacen hincapié en la distribución de un parámetro puede ser muy diferente de la distribución de los datos a partir de la cual se deriva.

  2. Les mostramos este video que ofrece una buena representación visual de cómo la CLT funciona mediante diferentes distribuciones de los datos subyacentes. (es un poco peculiar, sino que se comunica muy claramente)

Addendum:

He pasado por alto algunos detalles técnicos en mi explicación con el fin de hacerla más comprensible para alguien que está menos familiarizado con las estadísticas. Varios comentaristas han señalado y así que pensé que iba a incluir sus comentarios aquí:

  • Una afirmación más precisa de la CLT sería:

"El teorema del límite central establece que la media de los datos será distribuido normalmente (más específicamente la diferencia entre la media de los datos/de la muestra y la media real, multiplicado por la raíz cuadrada del tamaño de la muestra $\sqrt{n}$ es normal distribuido)"

También he visto esto explica como "la adecuadamente normalizado de la suma tiende a una distribución normal"

También vale la pena señalar que los datos deben estar compuestas de independientes e idénticamente distribuidas variables aleatorias con varianza finita para que la CLT a aplicar.

  • Una más precisa y/o menos Bayesiano manera de decir "la distribución del parámetro (media)" sería "la distribución de la estimación del parámetro por el ordinario de la media de la muestra"

7voto

Marc-Andre R. Puntos 789

CLT es acerca de la convergencia de una suma de variables aleatorias. Si tenemos un alcoholímetro de la muestra $X_1,...,X_n$, donde $EX_i=\mu$ e $Var(X_i)<\infty$ luego

$$ \frac{1}{\sqrt{n}}\left(X_1+...+X_n-n\mu\right) \N(0, Var(X_i)) $$

Esta declaración es solamente sobre la cercanía de una distribución de adecuadamente normalizado suma $(X_1+...+X_n)$ a la distribución normal. No dice nada sobre la convergencia de la distribución de $X_i$. Desde $X_i$ no dependen $n$ ¿por qué deberían converger en cualquier lugar?

Distribución empírica de una muestra $X_i$ realmente convergen (como el tamaño de la muestra aumenta) a la distribución real de las $X_i$ según Donsker teorema de, por lo menos que la distribución no es normal, la distribución empírica no estar cerca de ella.

6voto

Ken Puntos 41

Así es como me gustan a visualizar la CLT. No estoy 100% seguro de que el argumento es correcto, aunque, por favor consulte.

Comience con una población de valores cuya distribución está en ninguna parte cerca de lo normal. E. g., una distribución uniforme:

X <- runif(n= 50000)
hist(X)

enter image description here

Ahora, tome $n$ de las muestras de esta población, calcule la media de cada muestra, el cambio de la media de la muestra por la media de la población y la escala es por $\sqrt{n}$, trazar un histograma de estos $n$ medios. Que histograma es (casi) normal:

mu <- 1/2 # Mean of population X
x <- rep(NA, 1000) 
size <- 10
for(i in 1:length(x)) {
    x[i] <- sqrt(size) * (mean(sample(X, size= size)) - mu)
}

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X