22 votos

¿Cómo calcular el intervalo de confianza de la media de los medios?

Imagine que repetir un experimento tres veces. En cada experimento, recoger mediciones por triplicado. El triplicates tienden a ser bastante cerca, en comparación con las diferencias entre los tres experimental medios. El cómputo de la gran media es bastante fácil. Pero ¿cómo se puede calcular un intervalo de confianza para el grand decir?

Datos de ejemplo:

Experimento 1: 34, 41, 39

Experimento 2: 45, 51, 52

Experimento 3: 29, 31, 35

Suponga que los valores de replicación dentro de un experimento siga una distribución de Gauss, como se hace la media de los valores de cada experimento. La SD de la variación dentro de un experimento es menor que la de la SD entre los experimentos medios. Supongamos también que no hay ningún orden de los tres valores en cada experimento. De izquierda a derecha de los tres valores en cada fila es totalmente arbitraria.

El enfoque simple es calcular la media de cada experimento: 38.0, 49.3, y 31.7 y, a continuación, calcular la media y su intervalo de confianza 95%, de los tres valores. Usando este método, el gran media es de 39,7 con el 95% de intervalo de confianza de que van del 17,4 al 61.9.

El problema con este enfoque es que se hace caso omiso de la variación entre triplicates. Me pregunto si no hay una buena forma de tener en cuenta que la variación.

7voto

jldugger Puntos 7490

Esta es una cuestión de estimación dentro de un modelo lineal de efectos mixtos. El problema es que la varianza de la gran media es la suma ponderada de dos componentes de varianza que tiene que ser por separado estimado (a través de un ANOVA de los datos). Las estimaciones tienen diferentes grados de libertad. Por lo tanto, aunque se puede intentar construir un intervalo de confianza para la media de utilizar el habitual pequeña muestra (t de Student) de las fórmulas, es poco probable de alcanzar su cobertura nominal debido a que las desviaciones de la media no se exactamente de que siga una distribución t de Student.

Un reciente (2010) artículo de Eva Jarosova, la Estimación con el Modelo Lineal de Efectos Mixtos, trata este problema. (A partir de 2015 ya no parece estar disponible en la Web.) En el contexto de una "pequeña" conjunto de datos (a pesar de ello, cerca de tres veces mayor que este otro), ella utiliza la simulación para evaluar dos aproximado CI cálculos (el conocido Satterthwaite aproximación y el "Kenward-Roger método"). Sus conclusiones son

Simulación estudio reveló que la calidad de la estimación de la covarianza de los parámetros y, en consecuencia, el ajuste de los intervalos de confianza para muestras pequeñas puede ser bastante pobre.... Una mala estimación puede influir no sólo el verdadero nivel de confianza de los convencionales intervalos pero también puede hacer que el ajuste imposible. Es obvio que incluso para equilibrado de los datos de tres tipos de intervalos [convencional, Satterthwaite, K-R] pueden variar sustancialmente. Cuando una notable diferencia entre el convencional y el ajustar los intervalos se observa, los errores estándar de las estimaciones de los parámetros de covarianza debe ser revisado. Por otro lado, cuando las diferencias entre [los tres] tipos de intervalos son pequeñas, el ajuste parece ser innecesario.

En resumen, un buen enfoque parece ser

  1. Calcular convencional CI mediante el uso de las estimaciones de los componentes de varianza y pretender una distribución t se aplica.

  2. También calcular al menos uno de los ajustes de la Cei.

  3. Si los cálculos están "cerca", aceptar la convencional CI. De lo contrario, informan de que no hay datos suficientes para producir una confiable CI.

6voto

Ηλίας Puntos 109

Hay un exactas naturales intervalo de confianza para la grandmean en la equilibrada azar ANOVA de un modelo $$(y_{ij} \mid \mu_i) \sim_{\text{iid}} {\cal N}(\mu_i, \sigma^2_w), \quad j=1,\ldots,J, \qquad \mu_i \sim_{\text{iid}} {\cal N}(\mu \sigma^2_b), \quad i=1,\ldots,I.$$ De hecho, es fácil comprobar que la distribución de las medias observadas $\bar{y}_{i\bullet}$$\bar{y}_{i\bullet} \sim_{\text{iid}} {\cal N}(\mu, \tau^2)$$\tau^2=\sigma^2_b+\frac{\sigma^2_w}{J}$, y es bien sabido que entre la suma de cuadrados de $SS_b$ distribución $$SS_b \sim J\tau^2\chi^2_{I-1}$$ and is independent of the overall observed mean $$\bar y_{\bullet\bullet} \sim {\cal N}(\mu, \frac{\tau^2}{I})$$. Así $$\frac{\bar y_{\bullet\bullet} - \mu}{\frac{1}{\sqrt{I}}\sqrt{\frac{SS_b}{J(I-1)}}}$$ has a Student $t$ distribution with $1$ degrees of freedom, wherefrom it is easy to get an exact confidence interval about $\mu$.

Tenga en cuenta que este intervalo de confianza es nada, pero el clásico intervalo para una Gaussiana de media teniendo en cuenta solamente el grupo de medios de $\bar{y}_{i\bullet}$ de las observaciones. Por lo tanto el enfoque simple que usted menciona:

El enfoque simple es calcular la media de cada experimento: 38.0, 49.3, y 31.7 y, a continuación, calcular la media y su intervalo de confianza 95%, de los tres valores. Usando este método, la gran media es de 39,7 con el 95% de intervalo de confianza que van desde 17.4 a 61,9.

es derecho. Y su intuición acerca de lo que se ignora la variación:

El problema con este enfoque es que se hace caso omiso de la la variación entre triplicates. Me pregunto si no hay una buena manera de cuenta de que la variación.

es equivocado. Yo también hablar de la exactitud de dicha simplificación en http://stats.stackexchange.com/a/72578/8402

Actualización 12/04/2014

Algunos detalles son ahora escrito en mi blog: la Reducción de un modelo para obtener los intervalos de confianza.

0voto

Usted no puede tener un intervalo de confianza que resuelve ambos problemas. Usted tiene que elegir uno. Puede derivar de un error cuadrático medio término del experimento dentro de varianza que permite a decir algo acerca de la precisión con la que puede hacer una estimación de los valores dentro de experimento o se puede hacer que entre y será aproximadamente de entre los experimentos. Si yo solo hice el anterior me gustaría tienden a querer parcela es de alrededor de 0, en lugar de alrededor de la grand decir, porque no nos dice nada acerca del valor de la media, sólo un efecto (en este caso 0). O usted podría parcela de ambos y describir lo que hacen.

Tienes un mango en el entre. Por dentro es igual que en el cálculo del término de error en un ANOVA para obtener un MSE para trabajar con y a partir de ahí el SE que el CI es sólo sqrt(MSE/n) (n = 3 en este caso).

0voto

Kyralessa Puntos 76456

Creo que el CI para el grand decir es demasiado ancho [17,62] incluso para el rango de los datos originales.

Esta experimentos son MUY comunes en la química. Por ejemplo, en la certificación de materiales de referencia que usted tiene que recoger algunas botellas de todo el lote en una forma aleatoria, y usted tiene que llevar a cabo replicar el análisis en cada una de las botellas. ¿Cómo se calcula el valor de referencia y su incertidumbre? Hay un montón de manera de hacerlo, pero la más sofisticada (y correcto, creo) es la aplicación de meta-análisis o ML (Dersimonian-Laird, Vangel-Rukhin, etc)

¿Qué acerca de las estimaciones bootstrap?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X