6 votos

Regresión robusta: una mejor comprensión

Hoy he mirado la regresión robusta por primera vez y estoy un poco confundido, comparándola con algo como los mínimos cuadrados ordinarios y no estoy seguro de estar en el camino correcto.

He leído algunos artículos y dicen que con la regresión robusta no hay que preocuparse demasiado por los valores atípicos y la heteroscedasticidad y que las restricciones de normalidad en los residuos no son tan importantes como con OLS. Sin embargo, cuando hago la regresión robusta en R, tampoco obtengo indicadores significativos con respecto a los coeficientes (estoy usando el rlm() función). Entonces, cuando se aplica la regresión robusta, como la estimación M o MM, en un modelo de regresión, ¿sigue siendo importante la significación de los coeficientes o la idea de la regresión robusta es simplemente ajustar el mejor plano posible a través de los puntos de datos y encontrar los coeficientes?

4 votos

Utilice el paquete robustbase en su lugar. Es más reciente y contiene la información (estadísticas t) que buscas.

4voto

Sean Hanley Puntos 2428

Para ser algo puntilloso, no diría que los valores atípicos, la heteroscedasticidad y la no normalidad no importan con los métodos de regresión robusta. Más bien diría que los métodos robustos tienen menos probabilidades de verse perjudicados o dañados por esas condiciones. Sin embargo, aún podrían tener un efecto negativo.

La cuestión de si lo importante es la significación de los coeficientes o la exactitud de su estimación no está relacionada con la regresión robusta. Lo que es más importante para usted depende de las preguntas que está tratando de responder, no de las herramientas que utiliza para tratar de responderlas. En cambio, considere un caso en el que quiera probar la hipótesis de que una variable determinada no está relacionada con la variable de respuesta. No querrás que la respuesta que obtengas a esa pregunta (ya sea sí o no) esté condicionada por un valor atípico. Por lo tanto, utilizaría métodos robustos para ayudar a garantizar que su respuesta es representativa del grueso de sus datos. Del mismo modo, considere un caso en el que desee conocer la pendiente de la relación entre una variable de predicción y la variable de respuesta con la mayor precisión posible. No querrá que el valor de la pendiente estimada que obtenga haya sido impulsado por un valor atípico. Por ello, utilizará la regresión robusta para protegerse de esa posibilidad. En resumen, los métodos robustos disminuyen el grado en que los resultados pueden verse influidos por violaciones de los supuestos estadísticos clásicos.

Reconozco su frustración por no haber obtenido resultados significativos al utilizar estos métodos. Hay un par de posibilidades. Puede ser que lo que parecía ser el caso antes de utilizar la regresión robusta (tal vez los resultados de un análisis de regresión OLS anterior) fueron impulsados por las violaciones de los supuestos OLS y la hipótesis nula es realmente verdadera. La otra posibilidad es que, cuando los supuestos de MCO se cumplen, los métodos estándar tengan más potencia que los métodos robustos.

3voto

Eero Puntos 1612

Con la regresión OLS, cuando se cumplen todos los supuestos, las estadísticas t seguirán una distribución t (cuando la nula es verdadera) y el valor p es fácil de calcular.

Con las regresiones robustas ya no es sencillo y no sabemos realmente cuál es la distribución del estadístico "t", por lo que es mejor no proporcionar un valor p que proporcionar uno que probablemente sea erróneo (pero que puede ser fiable si se ve). Se puede seguir utilizando la regla general de que los estadísticos "t" cercanos a 0 probablemente no sean significativos y los lejanos a 0 probablemente sean significativos, pero no sabemos realmente dónde está la línea divisoria entre "cercano" y "lejano". Una opción para producir valores p es hacer un bootstrap del proceso, ver el paquete boot para herramientas que ayudarán con esto.

1 votos

No quiere utilizar un paquete de bootstrap genérico para hacer estimaciones robustas. Hay formas enormemente más eficientes de obtener CIs con bootstrap (tamaño de la computadora) para estimaciones robustas. Eche un vistazo al paquete frb y este papel josé

1 votos

@user603 En muchos casos usar un paquete genérico no sólo es suficiente sino que es la mejor opción. No vale la pena gastar algunas horas de un científico sólo para acortar un cálculo informático en unos minutos. Sólo cuando empiezas a hacer cosas muy parecidas mucho tiempo merece la pena mirar la eficiencia.

0 votos

@Erik: tal vez quieras leer el documento de JOSS antes de comentar. Estamos hablando de un ahorro de 2 órdenes de magnitud en los tiempos de computación sin comprometer la validez de los resultados del bootstrap.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X