7 votos

Debo utilizar la prueba t en muy sesgada y datos discretos?

Tengo muestras de una muy desigual conjunto de datos acerca de la participación de los usuarios (por ejemplo: número de puestos), que tienen diferentes tamaños (pero no menos de 200) y quiero comparar su media. Por eso, estoy utilizando dos muestras no apareadas, t-tests(pruebas t con el Welch factor, cuando las muestras tenían diferentes variaciones). Como he oído que, para muestras grandes, no importa que la muestra no son normales distribuidas.

Mi métricas son discretos, que son un conteo de la cantidad de cada participación del usuario. Por supuesto que tienen los usuarios que participan mucho más que las otras, pero no estoy teniendo en cuenta como valores atípicos. Aquí están los datos de la descripción: https://docs.google.com/spreadsheets/d/1WhSKgYIuP35eRsukHVoUFUlITNwO_RRcYoOoR9EmXHg/edit?usp=sharing

Mi problema: alguien, un repaso de lo que he hecho, dijo que las pruebas que estoy usando no eran adecuadas para mis datos. Se sugiere para iniciar la transformación de mis muestras antes de usar el t-test.

Yo sé que no puedo iniciar sesión de transformación de estos, ya que todos ellos tienen cero los valores de las muestras. Mi conjetura es que, si no puedo utilizar la prueba t, que debo utilizar la prueba U de Mann Whitney.

Están mal? Estoy equivocado? Si se equivocan, hay un libro o artículo científico que podría citar/show? Si estoy equivocado, que prueba debo usar?

13voto

AdamSane Puntos 1825

Muy discreto y sesgo de las variables que pueden presentar algunos problemas particulares de sus t-estadísticas:

Considere, por ejemplo, algo como esto:

enter image description here

(tiene un poco más de una cola a la derecha, que ha cortado, de ir a los 90-algo)

La distribución de las dos muestras de un t-estadística para muestras de tamaño 50 verá algo como esto:

enter image description here

En particular, hay algo corto, colas y un notable aumento en 0.

Temas como estos sugieren que la simulación de distribuciones que buscar algo así como su muestra puede ser necesaria para juzgar si el tamaño de la muestra es "lo suficientemente grande'

Sus datos parece tener algo más de una cola que en mi ejemplo anterior, pero su tamaño de la muestra es mucho más grande (yo estaba esperando algo como una tabla de frecuencia). Puede estar bien, pero que bien podría simular la forma de algunos modelos en el barrio de la distribución muestral (o podría volver a muestrear los datos) para obtener una idea de si los tamaños de muestra sería suficiente para el tratamiento de la distribución de la estadística de prueba es aproximadamente de $t$.


Estudio de simulación de Un - t.prueba de nivel de significación (basado en el adaptador de tablas de frecuencia)

Aquí me vuelven a muestrear sus tablas de frecuencia para tener una idea del impacto de distribuciones como la que tienes en la inferencia a partir de un t-test. Hice dos simulaciones, tanto utilizando sus tamaños de muestra para la UsersX y UsersY grupos, pero en la primera instancia de muestreo de la X-datos para ambos, y en la segunda instancia de muestreo de la Y-los datos para ambos (para obtener la H0 verdadera situación)

Los resultados fueron (no es de extrañar dada la similitud en la forma) bastante similares:

enter image description here

La distribución de los valores de p debe verse como una distribución uniforme. La razón por la que no es, probablemente, por la misma razón por la cual vemos un pico en el histograma de la estadística t me llamó la anterior -, mientras que la forma general es bueno, hay una clara posibilidad de una diferencia media de exactamente cero. Este aumento se infla el error de tipo 1 tasa de levantamiento de un 5% de nivel de significación a unos 7,5 o un 8 por ciento:

> sum(tpres1<.05)/length(tpres1)
[1] 0.0769

> sum(tpres2<.05)/length(tpres2)
[1] 0.0801

Esto no es necesariamente un problema - si usted sabe sobre él. Usted podría, por ejemplo, (a) hacer la prueba "como es", teniendo en cuenta que usted va a obtener un poco más alto tipo de la tasa de error; o (b) soltar el tipo nominal de la tasa de error de alrededor de la mitad (o incluso un poco más, ya que afecta a los menores niveles de significación relativamente más que los más grandes).

Mi sugerencia - si quieres hacer una prueba de t - lugar sería el uso de la estadística t pero para hacer un remuestreo-based test (hacer una permutación/aleatorización de la prueba o, si se prefiere, hacer un arranque de prueba).

--

Estudio de simulación B - u de Mann-Whitney prueba de nivel de significación (basado en el adaptador de tablas de frecuencia)

Para mi sorpresa, por el contrario, el test de Mann-Whitney es bastante nivel robusto en este tamaño de la muestra. Esto contradice un par de conjuntos de recomendaciones publicadas que he visto (es cierto que llevó a cabo en el menor tamaño de la muestra).

> sum(mwpres1<.05)/length(mwpres1)
[1] 0.0509

> sum(mwpres2<.05)/length(mwpres2)
[1] 0.0482

(los histogramas para este caso aparecen uniforme, por lo que este debe funcionan de forma similar a otros niveles de importancia típicos)

Los niveles de significación de 4.8 y 5.1 por ciento (con un error estándar de 0,22%) son excelentes, con distribuciones como estos.

Sobre esta base, yo diría que - en el nivel de significación al menos - el test de Mann Whitney está rindiendo bastante bien. Tendríamos que hacer un estudio de potencia para ver el impacto en el poder, pero no creo que lo haría muy mal en comparación a decir que el t-test (si hemos de ajustar las cosas para que estén en la misma real nivel de significación).

Así que tengo que comer mis anteriores palabras - mi precaución en la u de Mann-Whitney parece ser innecesario en este tamaño de la muestra.


Mi R código para la lectura de las tablas de frecuencia

#metric1 sample1
UsersX=data.frame(
     count=c(182L, 119L, 41L, 11L, 7L, 5L, 5L, 3L, 1L, 2L, 1L, 1L, 1L, 1L, 1L, 1L, 1L),
     value=c(0L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 12L, 17L, 18L, 20L, 29L, 35L, 42L)
             )

#metric 1 sample2
UsersY=data.frame(
    count=c(5098L, 2231L, 629L, 288L, 147L, 104L, 50L, 39L, 28L, 22L, 12L, 14L, 8L, 8L, 
     9L, 5L, 2L, 5L, 5L, 4L, 1L, 3L, 2L, 1L, 1L, 4L, 1L, 4L, 1L, 1L, 1L, 1L, 1L, 1L),
    value=c(0L, 1L, 2L, 3L, 4L, 5L, 6L, 7L, 8L, 9L, 10L, 11L, 12L, 13L, 14L, 15L, 16L, 
     17L, 18L, 19L, 20L, 21L, 22L, 25L, 26L, 27L, 28L, 31L, 33L, 37L, 40L, 44L, 50L, 76L)

Mi código R para hacer simulaciones

resample=function(tbl,n=sum(tbl$count))                                           #$
                  sample(tbl$value,size=n,replace=TRUE,prob=tbl$count)            #$

n1=sum(UsersX$count)                                                              #$
n2=sum(UsersY$count)                                                              #$
tpres1=replicate(10000,t.test(resample(UsersX),resample(UsersX,n2))$p.value)      #$
tpres2=replicate(10000,t.test(resample(UsersY,n1),resample(UsersY))$p.value)      #$

mwpres1=replicate(10000,wilcox.test(resample(UsersX),resample(UsersX,n2))$p.value)#$
mwpres2=replicate(10000,wilcox.test(resample(UsersY,n1),resample(UsersY))$p.value)#$

# "#$" at end of each line avoids minor issue with rendering R code containing "$"

6voto

Richard Puntos 180

Usted no debe utilizar la prueba t-test o incluso Welch modificada de la prueba t en muy sesgada de los datos, debido a que estas pruebas tienden a ser conservadores (por ejemplo, el alfa y el poder de estas pruebas puede ser menor; Zimmerman y Zumbo, 1993).

Entonces cuál es la prueba que se debe utilizar? Su respuesta variable es discreta de los datos de recuento, con muchos 0, y desea comparar medias de dos grupos independientes. Yo sugiero utilizar cero-inflado de regresión binomial negativa. Esta página tiene un gran tutorial sobre esta técnica mediante R.

Referencia:

D. W. Zimmerman & B. D. (1993). Clasificación de las Transformaciones y la Potencia de la Prueba t de Student y Welch t' Prueba de la No-Normalidad de las Poblaciones Con Varianzas Desiguales, Revista Canadiense de Psicología Experimental, 1993, 47:3, 523-539

3voto

jlo Puntos 755

A $T$ o no $T$ -- es que la pregunta?

Yo sugeriría a retroceder por un momento y preguntarse, "¿Cuál ES la pregunta?" Es la pregunta, "Son los medios de poblaciones 1 y 2 de la misma?", o es la pregunta, "Es el uso de la distribución de la misma en las poblaciones 1 y 2?", o es la pregunta, "Son las medianas de las poblaciones 1 y 2 de la misma?", o la pregunta es algo más todavía?

En $\nu > 350$ grados de libertad de la diferencia entre el uso de muestras de variaciones vs varianzas de la población es un tema menor. Preguntas de datos de procedencia, son mucho más importantes. Estas son preguntas como: ¿cómo estos datos vienen a ser? Era algún tipo de muestreo aleatorio mecanismo involucrado? Son también esenciales preguntas relacionadas con el análisis, como las realizadas anteriormente.

Si la respuesta a esas preguntas, la elección de la prueba estadística será más clara. Por supuesto, esta respuesta precede a su pregunta.

Ahora, suponiendo que la pregunta realmente es acerca de los medios, nos tenemos que preguntar si $N(0, 1)$ es una aproximación razonable a la distribución de la estadística de prueba. La fuertemente sesgada de las distribuciones que usted está tratando con me hacen dudar de esto. Me gustaría recomendar el uso de un Edgeworth expansión y comparar la respuesta con la respuesta dada por el estándar Normal. Tenga en cuenta que Edgeworth expansiones, no está libre de problemas, pero si los dos métodos que se están dando radicalmente diferentes respuestas que tienden a confiar en la Edgeworth expansión respuesta más que la de la $N(0, 1)$ respuesta.

-1voto

Prashanth Puntos 1541

Mientras que vendrá con su propio conjunto de limitaciones, la propensión de puntuación puede ser una manera de garantizar muestra de la igualdad (Connelly et al., 2013).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X