20 votos

Prueba t robusta para la media

Estoy tratando de probar la nula $E[X] = 0$ contra la alternativa local $E[X] > 0$ para una variable aleatoria $X$ , con un sesgo y una curtosis leves o medios de la variable aleatoria. Siguiendo las sugerencias de Wilcox en 'Introduction to Robust Estimation and Hypothesis Testing', he examinado las pruebas basadas en la media recortada, la mediana, así como el estimador M de la localización (procedimiento de "un paso" de Wilcox). Estas pruebas robustas superan a la prueba t estándar, en términos de potencia, cuando se realizan pruebas con una distribución no asimétrica, pero leptocúrtica.

Sin embargo, cuando se realizan pruebas con una distribución sesgada, estas pruebas unilaterales son demasiado liberales o demasiado conservadoras bajo la hipótesis nula, dependiendo de si la distribución es sesgada a la izquierda o a la derecha, respectivamente. Por ejemplo, con 1000 observaciones, la prueba basada en la mediana rechazará en realidad el ~40% de las veces, al nivel nominal del 5%. La razón de esto es obvia: para las distribuciones sesgadas, la mediana y la media son bastante diferentes. Sin embargo, en mi aplicación, realmente necesito probar la media, no la mediana, ni la media recortada.

¿Existe una versión más robusta de la prueba t que realmente pruebe la media, pero que sea insensible a la asimetría y la curtosis?

Lo ideal sería que el procedimiento también funcionara bien en el caso sin inclinación y con alta curtosis. La prueba de "un paso" es casi suficiente, con el parámetro de "curvatura" relativamente alto, pero es menos potente que las pruebas de media recortada cuando no hay asimetría, y tiene algunos problemas para mantener el nivel nominal de rechazos bajo asimetría.

de fondo: La razón por la que realmente me importa la media, y no la mediana, es que la prueba se utilizaría en una aplicación financiera. Por ejemplo, si se quisiera probar si una cartera tiene rendimientos logarítmicos esperados positivos, la media es realmente apropiada porque si se invierte en la cartera, se experimentarán todos los rendimientos (que es la media por el número de muestras), en lugar de $n$ duplicados de la mediana. Es decir, me importa mucho la suma de $n$ se extrae de la R.V. $X$ .

0 votos

¿Hay alguna razón que prohíba el uso de la prueba t de Welch? Echa un vistazo a mi respuesta a esta pregunta ( stats.stackexchange.com/questions/305/ ) donde me refiero a un artículo que defiende el uso de Welch en caso de no normalidad y heteroscedasticidad.

1 votos

Bueno, el problema es que quiero una prueba de 1 muestra, ¡no una prueba de 2 muestras! Estoy probando el nulo $E[X] = \mu$ y no $E[X_1] = E[X_2]$ . Buscaré el artículo de Kubinger et. al. (Ich kann schlecht Deutsche).

0 votos

Gracias por la aclaración. En este caso el documento de Kubinger no le será muy útil. Lo siento.

15voto

Eric Davis Puntos 1542

Estoy de acuerdo en que si quieres probar realmente si las medias de los grupos son diferentes (en lugar de probar las diferencias entre las medianas de los grupos o las medias recortadas, etc.), entonces no querrás usar una prueba no paramétrica que pruebe una hipótesis diferente.

  1. En general, los valores p de una prueba t tienden a ser bastante precisos si se producen desviaciones moderadas del supuesto de normalidad de los residuos. Echa un vistazo a este applet para intuir esta robustez: http://onlinestatbook.com/stat_sim/robustness/index.html

  2. Si todavía te preocupa la violación de la hipótesis de normalidad, puede que quiera bootstrap . Por ejemplo, http://biostat.mc.vanderbilt.edu/wiki/pub/Main/JenniferThompson/ms_mtg_18oct07.pdf

  3. También podría transformar la variable dependiente sesgada para resolver los problemas de desviación de la normalidad.

2 votos

+1 respuesta agradable y clara. Jeromy, ¿puedo hacer una pregunta sobre el punto 3? Entiendo el razonamiento de transformar los datos, pero siempre me ha molestado algo al hacerlo. ¿Cuál es la validez de reportar los resultados de la prueba t en los datos transformados a los datos no transformados (donde no se "permite" hacer una prueba t)? En otras palabras, si dos grupos son diferentes cuando los datos son, por ejemplo, transformados logarítmicamente, ¿en qué se basa para decir que los datos brutos también son diferentes? Ten en cuenta que no soy estadístico, así que puede que haya dicho algo absolutamente estúpido :)

2 votos

@nico No estoy seguro de cómo informar o pensar en los resultados, pero si todo lo que quieres mostrar es que para algunos X e Y, mu_X != mu_Y, debería ser cierto que para todos los X_i < X_j, log(X_i) < log(X_j) y para todos los X_i > X_j, log(X_i) > log(X_j). Por eso, para las pruebas no paramétricas que operan con rangos, las transformaciones de los datos no afectan al resultado. Creo que a partir de esto, se puede asumir que si alguna prueba muestra que mu_log(X) != mu_log(Y), entonces mu_X != mu_Y.

0 votos

Gracias por la(s) respuesta(s). en efecto, la prueba t parece mantener el tipo I nominal bajo una entrada ligeramente asimétrica/kurótica. sin embargo, esperaba algo con más potencia. re: 2, he implementado la prueba de Wilcox trimpb y trimcibt re: 3, había pensado en este método, pero estoy interesado en la media de los datos no transformados (es decir, no estoy comparando 2 R.V. con una prueba t, en cuyo caso, una transformación monótona estaría bien para una comparación basada en el rango, como señala @JoFrhwld).

6voto

Rob Wells Puntos 361

¿Por qué se están buscando pruebas no paramétricas? ¿Se violan los supuestos de la prueba t? ¿A saber, datos ordinales o no normales y varianzas inconstantes? Por supuesto, si su muestra es lo suficientemente grande, puede justificar la prueba t paramétrica con su mayor potencia a pesar de la falta de normalidad en la muestra. Del mismo modo, si su preocupación son las varianzas desiguales, existen correcciones a la prueba paramétrica que producen valores p precisos (la corrección de Welch).

De lo contrario, comparar sus resultados con la prueba t no es una buena manera de hacerlo, porque los resultados de la prueba t están sesgados cuando no se cumplen los supuestos. La U de Mann-Whitney es una alternativa no paramétrica adecuada, si es lo que realmente necesita. Sólo se pierde potencia si se utiliza la prueba no paramétrica cuando se podría utilizar justificadamente la prueba t (porque se cumplen los supuestos).

Y, para más antecedentes, vaya aquí: Prueba t de Student para muestras independientes .

0 votos

Los datos no son normales. El exceso de curtosis es del orden de 10 a 20, y el sesgo es del orden de -0,2 a 0,2. Estoy haciendo una prueba t de 1 muestra, así que no estoy seguro de seguirte en lo que respecta a las "varianzas desiguales", o a la prueba U.

0 votos

Acepto el consejo de "utilizar una prueba paramétrica". No resuelve exactamente mi pregunta, pero probablemente mi pregunta era demasiado abierta.

3voto

Akira Puntos 1061

Johnson (1978) da una modificación para el $t$ -estadística e intervalos de confianza que es un buen punto de partida para mi problema. La corrección se basa en una expansión de Cornish-Fisher y utiliza el sesgo de la muestra.

El "último y mejor" se debe a Ogaswara con referencias a Hall y otros.

1voto

Phil S Puntos 31

Sí, lo hay, la prueba de Yuen para datos emparejados y no emparejados, que no es otra cosa que la prueba t basada en medias recortadas. Cuando hay varianzas desiguales en ambas muestras, la prueba de Yuen-Welch es el sustituto de la clásica prueba t de Welch. Se aplica en varios programas informáticos de estadística.

0voto

Athena Puntos 23

No tengo suficiente reputación para un comentario, por lo tanto como respuesta: Echa un vistazo a este de la calcomanía. Creo que esto proporciona una excelente respuesta. En resumen:

El rendimiento asintótico es mucho más sensible a las desviaciones de normalidad en forma de asimetría que en forma de curtosis ... Así, la prueba t de Student es sensible a la asimetría pero relativamente robusta contra las colas pesadas, y es razonable utilizar una prueba de normalidad que se dirija a las alternativas de asimetría antes de aplicar la prueba t.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X