4 votos

¿Qué correcciones debo utilizar? Prueba T para diferencias de medias con diferentes tamaños de muestra y desviaciones estándar

Tengo dos muestras, procedentes de poblaciones diferentes. Una muestra tiene 8.000 registros, una media de 5 y una sd de 0,5 La segunda tiene 1.500 registros, una media de 7 y una sd de 1,5 Las distribuciones son casi normales.

Esto viene del comportamiento de dos tipos de dispositivos, y quiero entender si la salida de uno es de mayor calidad que el otro.

¿Puedo aplicar un $t$ -¿prueba aquí? ¿Qué precauciones debo tener o qué correcciones/prueba alternativa tengo?

2voto

Dario Castañé Puntos 131

Asumiendo que sus muestras son independientes, entonces la prueba t de Welch parece ser apropiada aquí, ya que parece que tiene varianzas desiguales (pero puede probar esto formalmente también si quiere a través de Prueba de Levene para la igualdad de varianzas ).

Dicho esto, como tienes muestras bastante grandes tanto del dispositivo 1 como del dispositivo 2, entonces puedes apelar al teorema del límite central y utilizar:

\begin{eqnarray*} Z & = & \frac{\bar{X}-\bar{Y}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}\sim N(0,1)\\ \end{eqnarray*}

bajo la hipótesis nula de igualdad de medias. Aquí, $\bar{X}$ y $\bar{Y}$ y medios de muestreo del dispositivo 1 y del dispositivo 2, respectivamente, y $s_i^2$ y $n_i$ son la varianza de la muestra y el tamaño de la muestra del i-ésimo dispositivo $i=1,2$ . Tenga en cuenta que en la inferencia de muestras grandes, no necesita preocuparse por las varianzas desiguales.

Entonces un intervalo de confianza del 95% para su estimación vendría dado por:

\begin{eqnarray*} \bar{X}-\bar{Y} & \pm & Z_{\alpha/2}\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}} \end{eqnarray*}

donde $Z_{\alpha/2}$ es la parte superior $\alpha/2$ punto de la distribución normal estándar.

Dicho esto, estoy totalmente de acuerdo con la respuesta dada por Stefan. Estos tamaños de muestra son realmente grandes y él ha proporcionado un buen consejo que deberías seguir. Deberías centrarte en lo que es una diferencia práctica importante. ¿Es importante para usted una diferencia media de 0,0001 entre el dispositivo 1 y el dispositivo 2? ¿Sigue siendo importante si el dispositivo 1 cuesta tres veces más que el dispositivo 2?

2voto

Stefan Puntos 737

Con un tamaño de muestra tan grande, casi cualquier pequeña diferencia en esas dos medias se declarará significativa. En su lugar, yo trataría de visualizar las muestras de diferentes maneras para aprender más sobre la forma de los datos.

Además, ¿cómo define usted la "mayor calidad"? ¿Significa que los resultados medios deben ser diferentes? ¿O tal vez se aplica más a las varianzas entre las muestras, por ejemplo, es más deseable una menor variación?

Aquí hay algunas ideas de cómo visualizar los datos usando R:

require(ggplot2)
require(gridExtra)

d1 <- data.frame(Y = rnorm(8000, 5, 0.5), X = "A")
d2 <- data.frame(Y = rnorm(1500, 7, 1.5), X = "B")
d <- rbind(d1, d2)

p1 <- ggplot(d, aes(Y, group = X)) + geom_density() + ggtitle("Density plot")
p2 <- ggplot(d, aes(X, Y)) + geom_boxplot() + ggtitle("Boxplot")
p3 <- ggplot(d, aes(X, Y)) + geom_violin() + ggtitle("Violin plot")

grid.arrange(p1, p2, p3, ncol = 1)

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X