6 votos

¿Cómo manejar los valores de apalancamiento?

Tengo un conjunto de datos con 1747 observaciones. La variable de resultado es categórica, mientras que las variables independientes son continuas, por lo que decidí utilizar la regresión logística para mi análisis. Construí el modelo utilizando el algoritmo de eliminación hacia atrás, y el modelo resultante parecía bastante estable. La comprobación de los valores VIF proporcionó muy buenos resultados, menos del 5% de los residuales eran grandes y los valores DFBeta son inferiores a 1. Sin embargo, se identificaron 76 casos con valores de apalancamiento grandes (sólo uno de ellos también era un residual grande). Cuando elimino estos casos, los resultados son algo diferentes.

¿Cuál sería el mejor enfoque para tratar estos valores?

8voto

alexs77 Puntos 36

Voy a insistir en que, a falta de un plan de análisis bien definido o de un protocolo para tratar dichos valores, la respuesta es: los dejas. Se comunican los resultados no adulterados como análisis primario: aquel en el que se considera que el valor p responde a la pregunta principal. Si es necesario e instructivo discutir los resultados de excluir los puntos de alto valor, esto se considera un análisis secundario o post-hoc y tiene un peso de evidencia significativamente menor, más un resultado "generador de hipótesis" que uno "confirmador de hipótesis".

La razón para no excluir estos valores es que se compromete la interpretación de los resultados y la reproducibilidad del análisis. Cuando se toman decisiones ad hoc sobre qué valores merece la pena incluir y cuáles no, no se puede confiar en que otro estadístico haga lo mismo. La práctica de descartar observaciones es muy mala para la ciencia. Al hacerlo, en realidad se revisa la hipótesis (porque se ha definido la población de forma distinta a la original), y la nueva "población" se define paradójicamente por lo que se ha observado. El valor p, por tanto, no significa lo que la gente cree que significa, y es, en cierto modo, un resultado falsificado.

Esto cuestiona el papel de las estadísticas de diagnóstico. Puede parecer que abogo por no utilizarlas nunca. Es todo lo contrario. Ejecutar diagnósticos sólo es bueno en la medida en que ayuda a comprender los supuestos inherentes al modelo. Como dijo Box: "Todos los modelos son erróneos, algunos modelos son útiles". Incluso con tendencias no lineales, a veces la relación lineal se aproxima lo suficiente como para darnos "reglas empíricas" que valen para orientar la toma de decisiones. Tomemos el relación entre la exposición al plomo al nacer y el cociente intelectual en la edad adulta . Muy pocos niños, por no decir ninguno, tienen una exposición 0 al plomo. Prácticamente todos nosotros hemos estado expuestos de tal forma que nuestro coeficiente intelectual ha disminuido significativamente con respecto a lo que podría haber sido de otro modo. Cuando se toman muestras de individuos de esta manera, es casi seguro que se encontrarán uno o más individuos altamente influyentes que tienen una baja exposición al plomo y un alto coeficiente intelectual. Piense en la diferencia en las hipótesis que se prueban en última instancia en los escenarios en los que tales individuos se excluyen o se mantienen en el análisis primario.

Cuando los diagnósticos indican observaciones problemáticas, es necesario abordar una serie de cuestiones:

  1. ¿Existen fuentes desconocidas de variación o covariación dentro de los subgrupos? Por ejemplo, ¿una correlación entre los miembros de un hogar o una oleada de pruebas de laboratorio realizadas por un laboratorio contratado con un equipo mal calibrado?

  2. ¿Se mantiene aproximadamente el modelo de la media? ¿Se comprueba la hipótesis con mayor precisión utilizando un enfoque de modelización más flexible, como con splines de suavizado o efectos polinómicos de orden superior?

  3. ¿Se tiene suficientemente en cuenta la ponderación de las variaciones? En la modelización LS, esto significa que los errores estándar se calculan a partir de datos homocedásticos o bien se utilizan errores estándar robustos. Los MLG reponderan automáticamente estos datos según los modelos de probabilidad de los resultados. En ese caso, ¿es correcto el modelo de probabilidad?

1 votos

Muchas gracias por una explicación tan detallada. Es realmente útil. Como usted ha mencionado, no hay ninguna buena razón para eliminar esos valores, así que los dejaré. Además, gracias por mencionar cuestiones que deberían abordarse. Tendré que pensar un poco en esa parte...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X