22 votos

Debo utilizar la prueba t en muy sesgada de los datos ? Prueba científica, por favor?

Tengo muestras de una muy desigual (se ve como una distribución exponencial) del conjunto de datos acerca de la participación de los usuarios (por ejemplo: número de puestos), que tienen diferentes tamaños (pero no menos de 200) y quiero comparar su media. Por eso, estoy utilizando dos muestras no apareadas, t-tests(pruebas t con el Welch factor, cuando las muestras tenían diferentes variaciones). Como he oído que, para muestras grandes, no importa que la muestra no son normales distribuidas.

Alguien, un repaso de lo que he hecho, dijo que las pruebas que estoy usando no eran adecuadas para mis datos. Se sugiere para iniciar la transformación de mis muestras antes de usar el t-test.

Soy un principiante, por lo que suena muy confuso para mí responder a mis preguntas de investigación con "registro de participación métrica".

Están mal? Estoy equivocado? Si se equivocan, hay un libro o artículo científico que podría citar/show? Si estoy equivocado, que prueba debo usar?

40voto

AdamSane Puntos 1825

Yo no llamaría 'exponencial' muy sesgado. Su registro es claramente de izquierda sesgo, por ejemplo, y en su momento-la asimetría está a sólo 2.

1) Utilizando la prueba de t con exponencial de los datos y $n$ cerca de 500 de multa:

a) El numerador del estadístico de prueba debe estar bien: Si los datos son independientes exponencial, con escala común (y no sustancialmente más pesado de cola que eso), entonces sus promedios son de gamma-distribución con forma de parámetro igual al número de observaciones. Su distribución parece muy normal que forma parámetro de más de 40 o menos (dependiendo de cuán lejos en la cola de la que usted necesita precisión).

Esto es susceptible de una demostración matemática, pero las matemáticas no son ciencia. Se puede comprobar empíricamente a través de la simulación, por supuesto, pero si usted está equivocado acerca de la exponentiality usted puede necesitar muestras más grandes. Esto es lo que la distribución de la muestra de sumas (y, por tanto, de la muestra de medios) de la exponencial de datos ver como cuando n=40:

enter image description here

Muy ligeramente sesgado. Esta asimetría disminuye a medida que la raíz cuadrada del tamaño de la muestra. Así que a n=160, es como la mitad de sesgo. En n=640 es un cuarto como inclinación:

enter image description here

Que efectivamente es simétrica puede ser visto por darle la vuelta sobre la media y trazado sobre la parte superior:

enter image description here

El azul es el original, el rojo es volteado. Como se puede ver, son casi coincidentes.

-

b) Aún más importante, la diferencia de estos dos gamma-variables de distribución (como te gustaría conseguir con los medios de exponenciales) es la más normal, y bajo el null (que es donde se necesita) la asimetría será cero. He aquí que para $n=40$:

enter image description here

Es decir, el numerador de la estadística t es muy cercano a lo normal en la medida de pequeños tamaños de muestra de $n=500$.

-

c) Lo que realmente importa, sin embargo, es la distribución de la totalidad de la estadística en la anulación. La normalidad del numerador no es suficiente para hacer que el t-estadístico tiene una distribución t. Sin embargo, en el exponencial de los datos del caso, que tampoco es mucho de un problema:

enter image description here

La curva roja es la distribución de la estadística t con gl=78, el histograma es lo que el uso de la Welch t-test sobre exponencial de las muestras que recibe (bajo la nula de igualdad de media; el de Welch-Satterthwaite grados de libertad en una muestra dada tienden a ser un poco más pequeño que el 78). En particular, la cola áreas en la región de su nivel de significación debe ser similar (a menos que tenga algo muy inusual niveles de significación, que son). Recuerde, esto es al $n=40$, no $n=500$. Es mucho mejor en $n=500$.

Nota, sin embargo, que para que realmente exponencial de datos, la desviación estándar sólo serán diferentes si los medios son diferentes. Si la exponencial de la presunción es el caso, entonces bajo el null, hay necesidad de preocuparse acerca de las diferentes varianzas de la población, ya que sólo se producen bajo la alternativa. Así una igualdad de la varianza de la prueba t todavía debe de estar bien (en el que caso de que el anterior buena aproximación puede ver en el histograma puede incluso ser un poco mejor).


2) Toma de registros, puede que todavía te permiten hacer sentido de ella, aunque

Si el valor null es cierto, y usted tiene distribuciones exponenciales, tienes que probar la igualdad de la escala de los parámetros. Ubicación-los medios de prueba de los registros de la prueba de la igualdad de los registros de la escala de los parámetros en contra de un cambio de ubicación alternativa en los registros (cambio de escala en los valores originales). Si la conclusión de que $\log\lambda_1\neq\log\lambda_2$ en un lugar de la prueba en los registros, que es, lógicamente, el mismo que concluir que $\lambda_1\neq\lambda_2$. Para las pruebas de los registros con un t-test funciona perfectamente bien como una prueba de la hipótesis original.

[Si haces la prueba en los registros, yo estaría inclinado a sugerir haciendo una igualdad de la varianza de la prueba en este caso.]

- Con la mera intervención de tal vez una o dos frases que justifican la conexión, similar a lo que tengo encima - usted debe ser capaz de escribir sus conclusiones no sobre el registro de la participación de la métrica, pero acerca de la participación de la métrica en sí.


3) Hay un montón de otras cosas que usted puede hacer!

a) puede hacer una prueba adecuada para exponencial de datos. Es fácil derivar un cociente de probabilidad basado en la prueba. Como sucede, por exponencial de los datos se obtiene una pequeña muestra de prueba F para esta situación. (Este debe tener más potencia de la prueba t-test, pero el poder de la prueba de t debe ser bastante razonable, y que espero que no haya mucha diferencia en su tamaño de la muestra.)

b) usted puede hacer una permutación-prueba - incluso la base en la prueba t-test si te gusta. Así que la única cosa que cambia es el cálculo del p-valor. O usted puede hacer algunas otras remuestreo de la prueba como un arranque basado en la prueba. Este debe tener una buena alimentación, aunque dependerá en parte de qué prueba estadística de que usted elija en relación a la distribución que tiene.

c) se puede hacer una clasificación basada en el test no paramétrico de la prueba (como la de Wilcoxon-Mann-Whitney). Si usted asume que si las distribuciones son diferentes, entonces sólo difieren por un factor de escala (adecuado para una variedad de distribuciones sesgadas, incluyendo la exponencial), entonces usted puede incluso obtener un intervalo de confianza para la proporción de la escala de los parámetros.

[Para ese propósito, me gustaría sugerir que trabajan en el registro de la escala (la ubicación de cambio en los registros el registro de la escala de trabajo). Eso no va a cambiar el valor de p, pero le permitirá exponentiate el cálculo del punto y el CI de los límites para obtener un intervalo de la escala mayús.]

Esto, también, suelen tener bastante buena alimentación si usted está en el exponencial de la situación, pero probablemente no tan bueno como el uso de la prueba t-test.


Una referencia que considera una notablemente más amplio que el conjunto de casos para la ubicación de cambio alternativo (con la varianza y asimetría de la heterogeneidad en la anulación, por ejemplo) es

Fagerland, M. W. y L. Sandvik (2009),
"El rendimiento de cinco dos-muestra la ubicación de las pruebas para distribuciones sesgadas con varianzas desiguales,"
Contemporáneo De Los Ensayos Clínicos, 30, 490-496

Generalmente se tiende a recomendar el Welch U-test (un particular, una de las varias pruebas consideradas por Welch y el único que han probado). Si usted no está usando exactamente el mismo Welch estadística de las recomendaciones pueden variar un poco (aunque probablemente no por mucho). [Tenga en cuenta que si su distribución exponencial usted está interesado en una escala alternativa a menos que usted tome los registros ... en cuyo caso no tienen varianzas desiguales.]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X