Permítanme decir, primero, que estoy constantemente impresionado con la calidad de las respuestas en este sitio. Ustedes han hecho un mejor trabajo en explicar conceptos difíciles que la mayoría de los profesores o los libros de texto que he encontrado.
A mi pregunta/hipótesis.
Mi objetivo es demostrar que los intervalos de confianza realmente el trabajo, y por el trabajo, me refiero a que un cierto porcentaje de ellos, digamos el 95%, que en realidad son la media de población (suponiendo que sabemos que la media de población en el primer lugar).
Aquí está mi set up.
A) he generado un conjunto de datos en Excel que consta de 20 muestras con 64 observaciones de cada uno (es decir, n = 64) que representan los precios.
B) los Precios están vinculados entre un mínimo de \$25 and a maximum of \$100.
C) a Continuación es la mejor fórmula de Excel que he encontrado que puede generar algo que se aproxima a una distribución normal. Si alguien tiene alguna idea sobre esto, déjame saber que no estoy totalmente convencido de que en cuanto a cómo y por qué funciona. Sólo sé que RandBetween produce una distribución uniforme por lo que es inútil para estos fines.
=NORMINV(NORMDIST(MinX,Mean,StDev,TRUE)+RAND()*NORMDIST(MaxX,Mean,StDev,TRUE)-NORMDIST(MinX,Mean,StDev,TRUE)),Mean,StDev)
D) elegí \$62.50 as the population mean simply because it's the average of 25 and 100.
E) I chose \$12 como la desviación estándar de la población.
F) elegí 95% (es decir, el puntaje z de 1,96) como el nivel de confianza.
Aquí están mis 20 intervalos de confianza. Los seres con los asteriscos no contienen la media de la población es de \$62.50.
S1 66.19 60.31
S2* 62.30 56.42
S3 66.46 60.58
S4* 70.38 64.50
S5 63.24 57.36
S6* 61.23 55.35
S7 63.95 58.07
S8 65.89 60.01
S9 67.86 61.98
S10 64.17 58.29
S11 65.59 59.71
S12 67.31 61.43
S13 67.61 61.73
S14 66.55 60.67
S15 66.03 60.15
S16 63.77 57.89
S17 64.63 58.75
S18 65.35 59.47
S19 66.19 60.31
S20 64.32 58.44
Como probablemente ya has adivinado, aquí está el problema: en teoría, si el 95% de los intervalos que figuran la población, a continuación, sólo 1 intervalo de 20 se han podido incluir. En su lugar había 3. Y este no es un incidente aislado. Si me regenerar los precios en repetidas ocasiones con F9, solo se reúne el 19 o mayor umbral de alrededor de 70% del tiempo con algunas iteraciones producir 20 20 intervalos que contienen la media como de baja ya que sólo 16 de las 20.
Mi pregunta es ¿por qué?
He aquí lo que he eliminado como posibles problemas hasta ahora.
a) he aumentado el número de muestras a 100 y el tamaño de la muestra para 1281 y tiene el mismo resultado, así que no creemos que sea un problema del tamaño de la muestra. 128,100 puntos de datos parece ser suficiente.
b) he realizado 10.000 iteraciones y grabó la macro y todavía tiene una "tasa de éxito" de aproximadamente el 70% de la misma como antes.
c) yo también se replica todo lo anterior con el 90% y el 99% de nivel de confianza. El 90% sólo resultó en 18 o más intervalos que contiene la media de la población es de 63% del tiempo. Un 99% de nivel de confianza sólo logró esta cerca del 87% del tiempo.
d) he gráficamente los datos en forma de histograma para inspeccionar visualmente para volver a la normalidad y he encontrado ninguna correlación visual entre la asimetría, picos, etc. y si es más o menos intervalos no contienen la media de población. También, he intentado un Cuantil Normal de la Parcela de Prueba de Normalidad que he encontrado en internet sobre la 128.1 k punto de datos de ejemplo y encontré una muy pequeña cantidad de leptokurtosis para cualquier persona que sabe qué hacer con eso.
Aquí están los posibles problemas que pueden estar influyendo en el resultado en formas no entiendo.
a) La distribución es "truncada." Me pareció muy poco que era inteligible para una persona como yo, que explicó cómo calcular los intervalos de confianza para este tipo de distribución, o incluso si este método es adecuado para los datos truncados. Ni siquiera podía encontrar a un acuerdo sobre si el truncamiento descalifica como normal en el sentido estricto.
b) de Excel Norminv, Dicha, y Rand funciones. Es Excel simplemente incapaces de generación aleatoria de una distribución normal de los datos con el nivel de precisión necesario para que este ejemplo funcione? Tenga en cuenta que también traté de Excel de análisis de datos->generación de números aleatorios herramienta y obtuvo prácticamente los mismos resultados que la fórmula de Excel he incluido más arriba.
Por último, la única manera de que yo era capaz de siempre obtienen el 90% de los intervalos de confianza para contener a la población fue el uso de un 95.7% de nivel de confianza (es decir, z-score 2.025), el 95% se necesita una CL de 99% y 99% necesita un CL de 99.5%.
Alguna idea sobre lo que está pasando aquí, sería muy apreciado. Si alguien puede averiguar esto, es que los chicos.
Gracias,
En caso de que a alguien le sucede a ver este hilo, aquí están las capturas de pantalla de los 2 principales hojas de cálculo de excel; una versión sólo con los valores, la otra versión con sólo las fórmulas.