25 votos

¿Cómo comprobar las diferencias entre las medias de dos grupos cuando los datos no se distribuyen normalmente?

Eliminaré todos los detalles biológicos y experimentos y citaré sólo el problema en cuestión y lo que he hecho estadísticamente. Me gustaría saber si es correcto, y si no, cómo proceder. Si los datos (o mi explicación) no son lo suficientemente claros, intentaré explicarme mejor editándolos.

Supongamos que tengo dos grupos/observaciones, X e Y, con tamaño $N_x=215$ y $N_y=40$ . Me gustaría saber si las medias de estas dos observaciones son iguales. Mi primera pregunta es:

  1. Si se cumplen los supuestos, ¿es pertinente utilizar aquí una prueba t paramétrica de dos muestras? Lo pregunto porque, según tengo entendido, suele aplicarse cuando el tamaño es pequeño.

  2. He trazado histogramas de X e Y y no se distribuyen normalmente, uno de los supuestos de una prueba t de dos muestras. Mi confusión es que, considero que son dos poblaciones y por eso comprobé la distribución normal. Pero entonces estoy a punto de realizar una prueba t de dos MUESTRAS... ¿Es correcto?

  3. Según el teorema central del límite, si realizas un muestreo (con o sin repetición, en función del tamaño de la población) varias veces y calculas la media de las muestras cada vez, la distribución será aproximadamente normal. Y, la media de esta variable aleatoria será una buena estimación de la media de la población. Así que decidí hacer esto tanto en X como en Y, 1000 veces, y obtuve muestras, y asigné una variable aleatoria a la media de cada muestra. El gráfico tenía una distribución muy normal. Las medias de X e Y eran 4,2 y 15,8 (que coincidían con la población +- 0,15) y las varianzas eran 0,95 y 12,11.
    He realizado una prueba t sobre estas dos observaciones (1000 puntos de datos cada una) con varianzas desiguales, porque son muy diferentes (0,95 y 12,11). Y se rechazó la hipótesis nula.
    ¿Tiene esto algún sentido? ¿Es este enfoque correcto / significativo o basta con una prueba z de dos muestras o es totalmente erróneo?

  4. También realicé una prueba no paramétrica de Wilcoxon para asegurarme (con X e Y originales) y la hipótesis nula también se rechazó de forma convincente. En el caso de que mi método anterior fuera totalmente erróneo, supongo que hacer una prueba no paramétrica es bueno, ¿excepto por la potencia estadística quizás?

En ambos casos, las medias fueron significativamente diferentes. Sin embargo, me gustaría saber si alguno de los enfoques, o ambos, son defectuosos/totalmente erróneos y, en caso afirmativo, ¿cuál es la alternativa?

28voto

Eero Puntos 1612

La idea de que la prueba t sólo sirve para muestras pequeñas es un aferramiento histórico. Sí, se desarrolló originalmente para muestras pequeñas, pero no hay nada en la teoría que distinga entre pequeñas y grandes. En la época anterior a que los ordenadores se utilizaran habitualmente para realizar estadísticas, las tablas t a menudo sólo llegaban hasta unos 30 grados de libertad y la normal se utilizaba más allá como una aproximación de la distribución t. Esto se hacía por conveniencia para mantener la distribución t en el tiempo. Esto se hacía por comodidad para mantener un tamaño razonable de la tabla t. Ahora, con los ordenadores, podemos hacer pruebas t para cualquier tamaño de muestra (aunque para muestras muy grandes la diferencia entre los resultados de una prueba z y una prueba t es muy pequeña). La idea principal es utilizar una prueba t cuando se utiliza la muestra para estimar las desviaciones típicas y la prueba z si se conocen las desviaciones típicas de la población (muy poco frecuente).

El Teorema Central del Límite nos permite utilizar la inferencia de la teoría normal (pruebas t en este caso) aunque la población no esté distribuida normalmente, siempre que el tamaño de las muestras sea lo suficientemente grande. Esto significa que su prueba es aproximada (pero con sus tamaños de muestra, la apromición debería ser muy buena).

La prueba de Wilcoxon no es una prueba de medias (a menos que sepa que las poblaciones son perfectamente simétricas y se cumplan otros supuestos poco probables). Si las medias son el principal punto de interés, la prueba t es probablemente la más adecuada.

Dado que las desviaciones típicas son tan diferentes y las formas no son normales y posiblemente sean diferentes entre sí, la diferencia de medias puede no ser lo más interesante. Piense en la ciencia y en lo que quiere hacer con sus resultados. ¿Se están tomando decisiones a nivel de población o a nivel individual? Piense en este ejemplo: está comparando 2 fármacos para una enfermedad determinada, con el fármaco A la mitad de la muestra murió inmediatamente y la otra mitad se recuperó en aproximadamente una semana; con el fármaco B todos sobrevivieron y se recuperaron, pero el tiempo de recuperación fue superior a una semana. En este caso, ¿realmente le importaría saber qué media de tiempo de recuperación fue más corta? O sustituir la mitad que muere en A por el hecho de que tarda mucho tiempo en recuperarse (más que cualquiera del grupo B). A la hora de decidir qué fármaco me gustaría tomar, querría tener toda la información, no sólo cuál es más rápido de media.

6voto

Andy Puntos 4237

Un añadido a la ya muy completa respuesta de Greg.

Si le he entendido bien, su punto 3 establece el siguiente procedimiento:

  • Observe $n$ muestras de una distribución $X$ .
  • A continuación, dibuje $m$ de esos $n$ y calcular su media.
  • Repite esto 1000 veces, guarda los medios correspondientes
  • Por último, calcule la media de esas medias y suponga que la media de $X$ es igual a la media así calculada.

Ahora su hipótesis es, que para esta media se cumple el teorema del límite central y la variable aleatoria correspondiente se distribuirá normalmente.

Echemos un vistazo a las matemáticas que hay detrás de tu cálculo para identificar el error:

Llamaremos a sus muestras de $X$ $X_1,\ldots,X_n$ o, en terminología estadística, tiene $X_1,\ldots, X_n\sim X$ . Ahora, extraemos muestras de tamaño $m$ y calcular su media. En $k$ -uno de esos medios se parece en algo a esto:

$$ Y_k=\frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}} $$

donde $\mu^k_i$ denota el valor entre 1 y $n$ que se ha extraído en el sorteo $i$ . El cálculo de la media de todas esas medias da como resultado

$$ \frac{1}{1000}\sum_{k=1}^{1000} \frac{1}{m}\sum_{i=1}^m X_{\mu^k_{i}} $$

Para ahorrarte la terminología matemática exacta, basta con que eches un vistazo a esta suma. Lo que ocurre es que el $X_i$ simplemente se suman varias veces a la suma. En total, se suman $1000m$ números y dividirlos por $1000m$ . De hecho, está calculando un ponderado media del $X_i$ con pesos aleatorios.

Ahora bien, el Teorema Central del Límite establece que la suma de un lote de independiente variables aleatorias es aproximadamente normal. (Lo que resulta en ser también la media aproximadamente normal).

Su suma anterior no produce muestras independientes. Tal vez tenga pesos aleatorios, pero eso no hace que sus muestras sean independientes en absoluto. Por lo tanto, el procedimiento escrito en 3 no es legal.

Sin embargo, como ya ha dicho Greg, el uso de un $t$ -prueba en sus datos originales puede ser aproximadamente correcta - si usted está realmente interesado en la media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X