Yo no llamaría 'exponencial' muy sesgado. Su registro es claramente de izquierda sesgo, por ejemplo, y en su momento-la asimetría está a sólo 2.
1) Utilizando la prueba de t con exponencial de los datos y $n$ cerca de 500 de multa:
a) El numerador del estadístico de prueba debe estar bien: Si los datos son independientes exponencial, con escala común (y no sustancialmente más pesado de cola que eso), entonces sus promedios son de gamma-distribución con forma de parámetro igual al número de observaciones. Su distribución parece muy normal que forma parámetro de más de 40 o menos (dependiendo de cuán lejos en la cola de la que usted necesita precisión).
Esto es susceptible de una demostración matemática, pero las matemáticas no son ciencia. Se puede comprobar empíricamente a través de la simulación, por supuesto, pero si usted está equivocado acerca de la exponentiality usted puede necesitar muestras más grandes. Esto es lo que la distribución de la muestra de sumas (y, por tanto, de la muestra de medios) de la exponencial de datos ver como cuando n=40:
Muy ligeramente sesgado. Esta asimetría disminuye a medida que la raíz cuadrada del tamaño de la muestra. Así que a n=160, es como la mitad de sesgo. En n=640 es un cuarto como inclinación:
Que efectivamente es simétrica puede ser visto por darle la vuelta sobre la media y trazado sobre la parte superior:
El azul es el original, el rojo es volteado. Como se puede ver, son casi coincidentes.
-
b) Aún más importante, la diferencia de estos dos gamma-variables de distribución (como te gustaría conseguir con los medios de exponenciales) es la más normal, y bajo el null (que es donde se necesita) la asimetría será cero. He aquí que para $n=40$:
Es decir, el numerador de la estadística t es muy cercano a lo normal en la medida de pequeños tamaños de muestra de $n=500$.
-
c) Lo que realmente importa, sin embargo, es la distribución de la totalidad de la estadística en la anulación. La normalidad del numerador no es suficiente para hacer que el t-estadístico tiene una distribución t. Sin embargo, en el exponencial de los datos del caso, que tampoco es mucho de un problema:
La curva roja es la distribución de la estadística t con gl=78, el histograma es lo que el uso de la Welch t-test sobre exponencial de las muestras que recibe (bajo la nula de igualdad de media; el de Welch-Satterthwaite grados de libertad en una muestra dada tienden a ser un poco más pequeño que el 78). En particular, la cola áreas en la región de su nivel de significación debe ser similar (a menos que tenga algo muy inusual niveles de significación, que son). Recuerde, esto es al $n=40$, no $n=500$. Es mucho mejor en $n=500$.
Nota, sin embargo, que para que realmente exponencial de datos, la desviación estándar sólo serán diferentes si los medios son diferentes. Si la exponencial de la presunción es el caso, entonces bajo el null, hay necesidad de preocuparse acerca de las diferentes varianzas de la población, ya que sólo se producen bajo la alternativa. Así una igualdad de la varianza de la prueba t todavía debe de estar bien (en el que caso de que el anterior buena aproximación puede ver en el histograma puede incluso ser un poco mejor).
2) Toma de registros, puede que todavía te permiten hacer sentido de ella, aunque
Si el valor null es cierto, y usted tiene distribuciones exponenciales, tienes que probar la igualdad de la escala de los parámetros. Ubicación-los medios de prueba de los registros de la prueba de la igualdad de los registros de la escala de los parámetros en contra de un cambio de ubicación alternativa en los registros (cambio de escala en los valores originales). Si la conclusión de que $\log\lambda_1\neq\log\lambda_2$ en un lugar de la prueba en los registros, que es, lógicamente, el mismo que concluir que $\lambda_1\neq\lambda_2$. Para las pruebas de los registros con un t-test funciona perfectamente bien como una prueba de la hipótesis original.
[Si haces la prueba en los registros, yo estaría inclinado a sugerir haciendo una igualdad de la varianza de la prueba en este caso.]
- Con la mera intervención de tal vez una o dos frases que justifican la conexión, similar a lo que tengo encima - usted debe ser capaz de escribir sus conclusiones no sobre el registro de la participación de la métrica, pero acerca de la participación de la métrica en sí.
3) Hay un montón de otras cosas que usted puede hacer!
a) puede hacer una prueba adecuada para exponencial de datos. Es fácil derivar un cociente de probabilidad basado en la prueba. Como sucede, por exponencial de los datos se obtiene una pequeña muestra de prueba F para esta situación. (Este debe tener más potencia de la prueba t-test, pero el poder de la prueba de t debe ser bastante razonable, y que espero que no haya mucha diferencia en su tamaño de la muestra.)
b) usted puede hacer una permutación-prueba - incluso la base en la prueba t-test si te gusta. Así que la única cosa que cambia es el cálculo del p-valor. O usted puede hacer algunas otras remuestreo de la prueba como un arranque basado en la prueba. Este debe tener una buena alimentación, aunque dependerá en parte de qué prueba estadística de que usted elija en relación a la distribución que tiene.
c) se puede hacer una clasificación basada en el test no paramétrico de la prueba (como la de Wilcoxon-Mann-Whitney). Si usted asume que si las distribuciones son diferentes, entonces sólo difieren por un factor de escala (adecuado para una variedad de distribuciones sesgadas, incluyendo la exponencial), entonces usted puede incluso obtener un intervalo de confianza para la proporción de la escala de los parámetros.
[Para ese propósito, me gustaría sugerir que trabajan en el registro de la escala (la ubicación de cambio en los registros el registro de la escala de trabajo). Eso no va a cambiar el valor de p, pero le permitirá exponentiate el cálculo del punto y el CI de los límites para obtener un intervalo de la escala mayús.]
Esto, también, suelen tener bastante buena alimentación si usted está en el exponencial de la situación, pero probablemente no tan bueno como el uso de la prueba t-test.
Una referencia que considera una notablemente más amplio que el conjunto de casos para la ubicación de cambio alternativo (con la varianza y asimetría de la heterogeneidad en la anulación, por ejemplo) es
Fagerland, M. W. y L. Sandvik (2009),
"El rendimiento de cinco dos-muestra la ubicación de las pruebas para distribuciones sesgadas con
varianzas desiguales,"
Contemporáneo De Los Ensayos Clínicos, 30, 490-496
Generalmente se tiende a recomendar el Welch U-test (un particular, una de las varias pruebas consideradas por Welch y el único que han probado). Si usted no está usando exactamente el mismo Welch estadística de las recomendaciones pueden variar un poco (aunque probablemente no por mucho). [Tenga en cuenta que si su distribución exponencial usted está interesado en una escala alternativa a menos que usted tome los registros ... en cuyo caso no tienen varianzas desiguales.]