4 votos

¿Qué prueba elegir cuando los resultados de la prueba t y la prueba de Wilcoxon son diferentes?

Tengo una muestra de 48. Según el teorema central del límite, puedo considerar que las medias de todas las variables continuas de mi muestra tienen una distribución normal. Sin embargo, una variable tiene una media de 14 +/- 8 y cuando dibujo un gráfico de cuantiles normales, parece que no es una distribución normal. Si utilizo una prueba t para comparar esta variable entre 2 grupos, el valor p es < 0,05 y la diferencia es significativa. Pero cuando utilizo una prueba de Wilcoxon tengo el resultado, p = 0,07 y no puedo concluir una diferencia significativa entre 2 grupos.

¿Qué prueba debo utilizar en esta situación, la prueba t o la prueba de Wilcoxon?

0 votos

Esta es una N pequeña. Quizá quieras publicar las cifras reales para que te asesoren mejor sobre tu problema.

6voto

ER17 Puntos 1

La diferencia entre p = 0,05 y p = 0,07 con ese tamaño de muestra no es significativa por sí misma ( Gelman y Stern, 2006 ; véase también aquí ), por lo que ambas pruebas dan básicamente el mismo resultado.

Si una prueba paramétrica y una no paramétrica no coinciden, yo examinaría detenidamente los datos brutos (cosa que haría de todos modos...); mi primera hipótesis sería que los valores atípicos u otras violaciones de los supuestos paramétricos distorsionan la prueba paramétrica.

5voto

mat_geek Puntos 1367

Si un modelo paramétrico es "correcto" (lo que significa que se aproxima razonablemente a la realidad), entonces dará estimaciones más eficientes y producirá una prueba más potente. Así que en tal caso se podría esperar que la prueba paramétrica fuera capaz de detectar un efecto menor con la prueba paramétrica. Pero si el supuesto de error normal se viola de forma significativa, entonces la prueba paramétrica podría dar resultados incorrectos. En ese caso, el método no paramétrico sigue siendo fiable. Por tanto, opte por la prueba no paramétrica. La verdadera dificultad estriba en determinar en qué medida una desviación de la normalidad es suficiente para invalidar la prueba paramétrica.

Pero Félix acertó. En este caso no tiene ese problema. La diferencia entre 0,05 y 0,07 no es mucha y es de esperar que ocurra cuando se utilizan dos pruebas diferentes. Las pruebas coinciden. Si crees que son radicalmente diferentes, estás poniendo demasiado énfasis en 0,05 como límite de significación.

4voto

unk2 Puntos 36

Dudo un poco en publicar esto, ya que probablemente no sea una respuesta completa. Pero creo que un aspecto importante que falta en los demás y ya que los comentarios son de tamaño limitado y no editable voy a publicar de esta manera.

Es cierto que la prueba t suele dar buenos resultados si el tamaño de la muestra es suficientemente grande. Lo que es suficientemente grande depende de la distribución subyacente. Aun así, es posible tener una muestra lo suficientemente grande como para que la CLT actúe sobre la media, de forma que la prueba no paramétrica de Wilcoxon y la prueba t sigan dando respuestas muy diferentes y ambas sean correctas. Esto se debe a que la prueba t evalúa las medias y la prueba de Wilcoxon las medianas. Y en distribuciones no simétricas, éstas pueden diferir.

En este caso no basta con comprobar si es válido utilizar estas pruebas. Como se ha dicho, es muy posible que ambas den resultados fiables. También tiene que pensar en lo que quiere saber. Un ejemplo típico son los ingresos, que pueden tener una media muy alta y una mediana mucho mayor.

Lo digo porque no sé de qué tienes una muestra, qué te interesa y cómo son las desviaciones de la normalidad. En muchos casos las distribuciones son lo suficientemente simétricas como para que ambos tests respondan más o menos a la misma pregunta. A veces responden a preguntas muy diferentes y esto no está relacionado con la validez de las respuestas.

En tu caso, sospecho que probablemente no sea así, pero de todos modos puede ser útil. Como ya se ha dicho, una diferencia entre un valor p de 0,05 y 0,07 no es significativa.

EDIT: He decidido ampliarlo aún más, debido a los comentarios. Es cierto que comparamos dos muestras. Sigue siendo cierto que la prueba de Wilcoxon (incluso la Rank-Sum) busca un desplazamiento de la mediana > 0 y la prueba t busca un desplazamiento de la media > 0. Ten en cuenta que el desplazamiento de la mediana no es el desplazamiento de las medianas. Genere los datos en R así:

x1 <- 100 + 0.01*rnorm(1000) #Effectively constant, with some jitter to avoid ties
shift.down <- seq(-10,0, by = 10/499)
shift.up <- seq(0,100, by = 100/499)
x2 <- 100 + c(shift.down, shift.up)
t.test(x1,x2)
mean(x1-x2) # will be significant
wilcox.test(x1,x2) #will be insignificant
median(x1-x2)
median(x1)-median(x2)

Esto funciona porque tanto el desplazamiento de la mediana como el desplazamiento de las medianas es cero. Sin embargo,

x1 <- rnorm(1000)
x2 <- rnorm(1000)
x2[x2>0] <- x2[x2>0]^4
median(x1)-median(x2)
median(x1-x2)
mean(x1)-mean(x2)
mean(x1-x2)
t.test(x1,x2)
wilcox.test(x1,x2)

dará una prueba de wilcoxon significativa ya que tenemos un desplazamiento de la mediana aunque no tengamos un desplazamiento de las medianas.

0 votos

Estoy de acuerdo con la mayor parte de lo que dices pero tengo pequeños problemas en un par de puntos. (1) No siempre se puede confiar en la CLT. Algunas distribuciones, en particular los de cola pesada que no tienen segundos momentos no convergen a una normal (probablemente no es el caso aquí).

0 votos

2) Aunque podría decirse que las pruebas no paramétricas de suma comprueban las medianas, no creo que sea correcto afirmar que eso es lo que hace la prueba de suma de rangos de Wilcoxon. En realidad es una prueba de desplazamiento de centro. Si las poblaciones tienen "centros" diferentes, tanto la media como la mediana se desplazarán, aunque dependiendo de la forma de las distribuciones puede que no de la misma manera. Así que creo que se puede ver la prueba como una prueba de ambas medias y medianas, ya que debería tener poder contra los cambios o se podría decir que no prueba ninguna porque no prueba directamente ninguna.

0 votos

Para añadir algo al primer comentario de Michael, a veces el CLT sigue aplicándose asintóticamente, pero para cualquier tamaño de muestra finito razonable, aún no ha "entrado en acción". Estos ejemplos suelen estar justo en el límite del cumplimiento de los supuestos de la CLT (es decir, la varianza "casi" no existe). Véase aquí por ejemplo.

2voto

El supuesto de normalidad en la prueba t se refiere a la muestra concreta que se tiene, no a una distribución teórica. El hecho de que deban ser teóricamente normales no significa que lo sean, como sugieres a partir de tu propio examen de la distribución. Por lo tanto, has violado los supuestos de la prueba t y la de Wilcoxon es una mejor opción. Esto es bastante común con un N pequeño. No está claro, por la forma en que has redactado las cosas, cuál es el N en cada grupo. ¿Es una prueba pareada?

Parece que dices que tienes que hacer algunas pruebas t. Si ese es el caso, entonces probablemente debería utilizar la prueba no paramétrica para todos ellos. No parece que quiera estimar realmente un parámetro, sino simplemente comprobar la significación. Por lo tanto, no estarías obteniendo nada extra de la prueba paramétrica y no está haciendo lo que quieres cuando violas sus supuestos.

Además, si realmente tiene que realizar varias pruebas dentro del mismo experimento, lo que usted llama significativo podría no serlo una vez que se ajusta alfa para las comparaciones múltiples. Pero la teoría debería guiar lo que hay que hacer y no nos has dado ninguna.

Además de la respuesta de Felix S., él implica que deberías examinar los datos para ver si el efecto paramétrico fue impulsado por puntos de datos particulares. Puede que haya algo significativo que puedas decir al respecto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X