21 votos

Curso intensivo de estimación robusta de medias

Tengo un montón (alrededor de 1000) de estimaciones y se supone que todas son estimaciones de la elasticidad a largo plazo. Algo más de la mitad de ellas se estiman con el método A y el resto con un método B. En algún sitio leí algo así como "Creo que el método B estima algo ". muy diferente del método A, porque las estimaciones son mucho más elevadas (50-60%)". Mis conocimientos de estadística robusta son casi nulos, así que sólo calculé las medias y medianas muestrales de ambas muestras... y enseguida vi la diferencia. El método A está muy concentrado, la diferencia entre la mediana y la media es muy pequeña, pero la muestra del método B variaba salvajemente.

Llegué a la conclusión de que los valores atípicos y los errores de medición sesgan la muestra del método B, así que deseché unos 50 valores (alrededor del 15%) que eran muy incoherentes con la teoría... y de repente las medias de ambas muestras (incluido su IC) eran muy similares. Los gráficos de densidad también.

(En la búsqueda de la eliminación de valores atípicos, miré el rango de la muestra A y eliminé todos los puntos de muestra en B que caían fuera de él). Me gustaría que me dijeras dónde puedo encontrar algunos fundamentos de estimación robusta de medias que me permitan juzgar esta situación con más rigor. Y tener algunas referencias. No necesito un conocimiento muy profundo de diversas técnicas, más bien leer un estudio exhaustivo de la metodología de la estimación robusta.

He realizado una prueba t para determinar la significación de la diferencia de medias tras eliminar los valores atípicos y el valor p es de 0,0559 (t en torno a 1,9); para las muestras completas, la estadística t era de 4,5 aproximadamente. Pero esa no es realmente la cuestión, las medias pueden ser un poco diferentes, pero no deberían diferir en un 50-60% como se ha indicado anteriormente. Y no creo que lo hagan.

25voto

UK Visa Works Puntos 29

¿Busca la teoría o algo práctico?

Si buscas libros, aquí tienes algunos que me han resultado útiles:

  • F.R. Hampel, E.M. Ronchetti, P.J.Rousseeuw, W.A. Stahel, Estadística robusta: El enfoque basado en las funciones de in funciones de fluencia John Wiley & Sons, 1986.

  • P.J. Huber, Estadísticas sólidas John Wiley & Sons, 1981.

  • P.J. Rousseeuw, A.M. Leroy, Regresión robusta y detección de valores atípicos John Wiley & Sons, 1987.

  • R.G. Staudte, S.J. Sheather, Pruebas y estimaciones sólidas John Wiley & Sons, 1990.

Si buscas métodos prácticos, aquí tienes algunos métodos robustos de estimación de la media ("estimadores de localización" es supongo el término más principista):

  • La mediana es sencilla, conocida y bastante potente. Es muy resistente a los valores atípicos. El "precio" de la robustez es de alrededor del 25%.

  • La media recortada al 5% es otro método posible. En este caso se descartan el 5% de los valores más altos y el 5% de los más bajos, y luego se toma la media (promedio) del resultado. Es menos robusto frente a los valores atípicos: mientras no se corrompa más del 5% de los puntos de datos, es bueno, pero si se corrompe más del 5%, de repente se vuelve horrible (no se degrada con elegancia). El "precio" de la robustez es inferior a la mediana, aunque no sé cuál es exactamente.

  • El estimador de Hodges-Lehmann calcula la mediana del conjunto $\{(x_i+x_j)/2 : 1 \le i \le j \le n\}$ (un conjunto que contiene $n(n+1)/2$ ), donde $x_1,\dots,x_n$ son las observaciones. Esto tiene una robustez muy buena: puede manejar la corrupción de hasta alrededor del 29% de los puntos de datos sin venirse totalmente abajo. Y el "precio" de la robustez es bajo: alrededor del 5%. Es una alternativa plausible a la mediana.

  • La media intercuartílica es otro estimador que se utiliza a veces. Calcula la media del primer y tercer cuartil, por lo que es fácil de calcular. Tiene muy buena robustez: puede tolerar la corrupción de hasta el 25% de los puntos de datos. Sin embargo, el "precio" de la robustez no es trivial: alrededor del 25%. En consecuencia, parece inferior a la mediana.

  • Se han propuesto muchas otras medidas, pero las anteriores parecen razonables.

En resumen, sugeriría la mediana o posiblemente el estimador de Hodges-Lehmann.

P.D. Debería explicar a qué me refiero con el "precio" de la robustez. Un estimador robusto está diseñado para seguir funcionando decentemente bien aunque algunos de los puntos de datos estén corruptos o sean valores atípicos. Pero, ¿qué ocurre si se utiliza un estimador robusto en un conjunto de datos sin valores atípicos ni corrupción? Lo ideal sería que el estimador robusto fuera lo más eficiente posible a la hora de utilizar los datos. Aquí podemos medir la eficiencia por el error estándar (intuitivamente, la cantidad típica de error en la estimación producida por el estimador). Se sabe que si las observaciones proceden de una distribución gaussiana (iid), y si se sabe que no se va a necesitar robustez, entonces la media es óptima: tiene el menor error de estimación posible. El "precio" de la robustez, arriba, es cuánto aumenta el error estándar si aplicamos un estimador robusto concreto a esta situación. Un precio de robustez del 25% para la mediana significa que el tamaño del error de estimación típico con la mediana será aproximadamente un 25% mayor que el tamaño del error de estimación típico con la media. Obviamente, cuanto más bajo sea el "precio", mejor.

7voto

Anthony Cramp Puntos 126

Si le gusta algo breve y fácil de digerir, eche un vistazo al siguiente artículo de la literatura psicológica:

Erceg-Hurn, D. M., & Mirosevich, V. M. (2008). Métodos estadísticos robustos modernos: Una forma sencilla de maximizar la precisión y la potencia de su investigación. Psicólogo americano , 63(7), 591-601. doi:10.1037/0003-066X.63.7.591

Se basan principalmente en los libros de Rand R Wilcox (que hay que reconocer que tampoco son demasiado matemáticos):

Wilcox, R. R. (2001). Fundamentals of modern statistical methods : substantially improving power and accuracy. Nueva York; Berlín: Springer.
Wilcox, R. R. (2003). Aplicación de las técnicas estadísticas contemporáneas. Amsterdam; Boston: Academic Press.
Wilcox, R. R. (2005). Introduction to robust estimation and hypothesis testing. Academic Press.

5voto

bheklilr Puntos 113

Un libro que combina muy bien la teoría y la práctica es Métodos estadísticos robustos con R, por Jurečková y Picek. También me gusta Estadísticas sólidas de Maronna et al. Sin embargo, es posible que ambos contengan más matemáticas de las que le interesan. Para un tutorial más aplicado centrado en R, este BelVenTutorial pdf puede ayudar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X