5 votos

Dado un nivel de confianza del 95%, ¿Cómo demuestro el 95% de los intervalos contienen realmente la media de la población?

Permítanme decir, primero, que estoy constantemente impresionado con la calidad de las respuestas en este sitio. Ustedes han hecho un mejor trabajo en explicar conceptos difíciles que la mayoría de los profesores o los libros de texto que he encontrado.

A mi pregunta/hipótesis.

Mi objetivo es demostrar que los intervalos de confianza realmente el trabajo, y por el trabajo, me refiero a que un cierto porcentaje de ellos, digamos el 95%, que en realidad son la media de población (suponiendo que sabemos que la media de población en el primer lugar).

Aquí está mi set up.

A) he generado un conjunto de datos en Excel que consta de 20 muestras con 64 observaciones de cada uno (es decir, n = 64) que representan los precios.

B) los Precios están vinculados entre un mínimo de \$25 and a maximum of \$100.

C) a Continuación es la mejor fórmula de Excel que he encontrado que puede generar algo que se aproxima a una distribución normal. Si alguien tiene alguna idea sobre esto, déjame saber que no estoy totalmente convencido de que en cuanto a cómo y por qué funciona. Sólo sé que RandBetween produce una distribución uniforme por lo que es inútil para estos fines.

=NORMINV(NORMDIST(MinX,Mean,StDev,TRUE)+RAND()*NORMDIST(MaxX,Mean,StDev,TRUE)-NORMDIST(MinX,Mean,StDev,TRUE)),Mean,StDev)

D) elegí \$62.50 as the population mean simply because it's the average of 25 and 100.

E) I chose \$12 como la desviación estándar de la población.

F) elegí 95% (es decir, el puntaje z de 1,96) como el nivel de confianza.

Aquí están mis 20 intervalos de confianza. Los seres con los asteriscos no contienen la media de la población es de \$62.50.

S1  66.19   60.31
S2* 62.30   56.42
S3  66.46   60.58
S4* 70.38   64.50
S5  63.24   57.36
S6* 61.23   55.35
S7  63.95   58.07
S8  65.89   60.01
S9  67.86   61.98
S10 64.17   58.29
S11 65.59   59.71
S12 67.31   61.43
S13 67.61   61.73
S14 66.55   60.67
S15 66.03   60.15
S16 63.77   57.89
S17 64.63   58.75
S18 65.35   59.47
S19 66.19   60.31
S20 64.32   58.44

Como probablemente ya has adivinado, aquí está el problema: en teoría, si el 95% de los intervalos que figuran la población, a continuación, sólo 1 intervalo de 20 se han podido incluir. En su lugar había 3. Y este no es un incidente aislado. Si me regenerar los precios en repetidas ocasiones con F9, solo se reúne el 19 o mayor umbral de alrededor de 70% del tiempo con algunas iteraciones producir 20 20 intervalos que contienen la media como de baja ya que sólo 16 de las 20.

Mi pregunta es ¿por qué?

He aquí lo que he eliminado como posibles problemas hasta ahora.

a) he aumentado el número de muestras a 100 y el tamaño de la muestra para 1281 y tiene el mismo resultado, así que no creemos que sea un problema del tamaño de la muestra. 128,100 puntos de datos parece ser suficiente.

b) he realizado 10.000 iteraciones y grabó la macro y todavía tiene una "tasa de éxito" de aproximadamente el 70% de la misma como antes.

c) yo también se replica todo lo anterior con el 90% y el 99% de nivel de confianza. El 90% sólo resultó en 18 o más intervalos que contiene la media de la población es de 63% del tiempo. Un 99% de nivel de confianza sólo logró esta cerca del 87% del tiempo.

d) he gráficamente los datos en forma de histograma para inspeccionar visualmente para volver a la normalidad y he encontrado ninguna correlación visual entre la asimetría, picos, etc. y si es más o menos intervalos no contienen la media de población. También, he intentado un Cuantil Normal de la Parcela de Prueba de Normalidad que he encontrado en internet sobre la 128.1 k punto de datos de ejemplo y encontré una muy pequeña cantidad de leptokurtosis para cualquier persona que sabe qué hacer con eso.

Aquí están los posibles problemas que pueden estar influyendo en el resultado en formas no entiendo.

a) La distribución es "truncada." Me pareció muy poco que era inteligible para una persona como yo, que explicó cómo calcular los intervalos de confianza para este tipo de distribución, o incluso si este método es adecuado para los datos truncados. Ni siquiera podía encontrar a un acuerdo sobre si el truncamiento descalifica como normal en el sentido estricto.

b) de Excel Norminv, Dicha, y Rand funciones. Es Excel simplemente incapaces de generación aleatoria de una distribución normal de los datos con el nivel de precisión necesario para que este ejemplo funcione? Tenga en cuenta que también traté de Excel de análisis de datos->generación de números aleatorios herramienta y obtuvo prácticamente los mismos resultados que la fórmula de Excel he incluido más arriba.

Por último, la única manera de que yo era capaz de siempre obtienen el 90% de los intervalos de confianza para contener a la población fue el uso de un 95.7% de nivel de confianza (es decir, z-score 2.025), el 95% se necesita una CL de 99% y 99% necesita un CL de 99.5%.

Alguna idea sobre lo que está pasando aquí, sería muy apreciado. Si alguien puede averiguar esto, es que los chicos.

Gracias,


En caso de que a alguien le sucede a ver este hilo, aquí están las capturas de pantalla de los 2 principales hojas de cálculo de excel; una versión sólo con los valores, la otra versión con sólo las fórmulas. Random number generator values

Random number generator formulas

enter image description here

enter image description here

enter image description here

enter image description here

enter image description here

96voto

Awais Tariq Puntos 116

En cualquier caso, tienes que simular un número infinito de muestras para obtener el resultado que desea.

O se basan en la teoría de la probabilidad.

El probable que el intervalo de confianza abarca el promedio es de 0.95. Si haces $n$ CI, el número que cubren la media verdadera seguirá una distribución binomial $(n,p)$, $p=0.95$.

Así que nada es seguro.

93voto

jldugger Puntos 7490

Ayuda a destilar su problema a algo simple y claro. Cuando el uso de Excel, esto significa:

  • Tira innecesarios y duplicados del material.

  • Usar nombres significativos para los rangos y las variables en lugar de la celda de referencia, siempre que sea posible.

  • Hacer pequeños ejemplos.

  • Dibujos de los datos.

Para ilustrar, permítanme compartir una hoja de cálculo que he creado hace mucho tiempo para este propósito: mostrar, a través de la simulación, cómo la confianza de los intervalos de trabajo. Para empezar, aquí está la hoja de cálculo donde el usuario establece los valores de parámetro y les da nombres significativos:

Parameters worksheet

La simulación se lleva a cabo en más de 100 columnas de otra hoja de cálculo. Aquí está una pequeña parte de él; el resto de las columnas de aspecto similar.

Simulation worksheet

¿Cómo se hace? Echemos un vistazo a las fórmulas:

Formulas

De arriba a abajo, las primeras filas:

  1. Contar el número de valores simulados en la columna.

  2. Calcular su desviación estándar y, a continuación, su error estándar.

  3. Calcular el t-valor del índice de confianza alpha.

Este material es de poco interés, por lo que se muestra en texto normal. Las cosas interesantes es de color rojo, sino que debe ser auto-explicativas de las fórmulas. (La extraña fórmula para Out? será evidente en el gráfico siguiente.) El verde de los valores muestran cómo generar normal varia con la media de Mu y la desviación estándar Sigma. Esto se hace mediante la inversión de la distribución acumulativa, como computada (para distribuciones Normales) NORMSINV.

Finalmente, estos 100 columnas unidad de un gráfico que muestra todos los 100 intervalos de confianza en relación a la especificada significar Mu y también se indica de forma visual (a través de las puntas en la parte inferior) que los intervalos no logran cubrir la media. Esto se hace con un poco de gráfica truco: el valor de Out? determina el alto de los picos debe ser; un valor de 3.5 extiende en la parte inferior de la parcela, mientras que un valor de 0 los mantiene fuera de la parcela. (Estos valores se trazan en una invisible mano izquierda del eje, no en la mano derecha eje).

Plot

En este caso es evidente de inmediato que dos intervalos no cubren la media. (La sexta y 33, como se ve.)

Porque cada intervalo tiene una $1-\alpha$ = $1-0.95$ = $5$% posibilidad de no cubrir la media en este ejemplo, el conteo de intervalos de $100$ sigue una Binomial$(100, .05)$ distribución. Esta distribución da relativamente alta probabilidad de cuenta entre el $1$ ($3.1$%de probabilidad de ocurrencia) y $9$ ($3.5$%de probabilidad de ocurrencia); la posibilidad de que el conde va a estar fuera de este rango sólo es $3.4$%. Presionando repetidamente el "recálculo" clave (F9 en Windows), usted puede controlar estos aspectos. Con una macro es fácil acumular estos recuentos a lo largo de muchos simulaciones, a continuación, dibuje un histograma y tal vez incluso llevar a cabo una prueba de Chi-cuadrado para comprobar que efectivamente siga la esperada distribución Binomial.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X