22 votos

Problemas causados por la regresión por pasos

Conozco bien los problemas de la selección por pasos/adelante/atrás en los modelos de regresión. Hay numerosos casos de investigadores que denuncian estos métodos y señalan alternativas mejores. Tenía curiosidad por saber si existen historias en las que un análisis estadístico:

  • ha utilizado la regresión por pasos;
  • llegó a algunas conclusiones importantes basándose en el modelo final
  • la conclusión era errónea y tuvo consecuencias negativas para la persona, su investigación o su organización

Mi opinión al respecto es que si los métodos escalonados son malos, debería haber consecuencias en el "mundo real" por utilizarlos.

4voto

Hoogendijk Puntos 45

Se plantea más de una pregunta. La más limitada consiste en pedir un ejemplo de casos en los que la regresión por pasos haya causado daños por haberse realizado por pasos. Por supuesto, esto es cierto, pero sólo puede establecerse de forma inequívoca cuando los datos utilizados para la regresión por pasos también se publican, y alguien los vuelve a analizar y publica una corrección revisada por pares con una retractación de los autores principales publicada. Hacer acusaciones en cualquier otro contexto conlleva el riesgo de acciones legales y, si utilizamos un conjunto de datos diferente, podríamos sospechar que se cometió un error, pero "la estadística nunca prueba nada" y no podríamos establecer que se cometió un error; "más allá de toda duda razonable".

De hecho, con frecuencia se obtienen resultados diferentes según se realice la eliminación por pasos o la construcción por pasos de una ecuación de regresión, lo que nos sugiere que ninguno de los dos enfoques es lo suficientemente correcto como para recomendar su uso. Está claro que ocurre algo más, y eso nos lleva a una pregunta más amplia, también planteada anteriormente, pero en forma de viñeta, que equivale a "¿Cuáles son los problemas de la regresión por pasos, de todos modos? Es la pregunta más útil y tiene la ventaja añadida de que no me demandarán por responderla.

Hacerlo bien para MLR por pasos, significa usar 1) unidades físicamente correctas (véase más abajo), y 2) transformación adecuada de las variables para obtener las mejores correlaciones y el tipo de distribución de errores (para la homocedasticidad y la fisicidad), y 3) utilizando todas las permutaciones de combinaciones de variables, no paso a paso, todos , y 4) si se realiza un diagnóstico exhaustivo de la regresión, se evita pasar por alto combinaciones de variables con un alto VIF (colinealidad) que, de lo contrario, serían engañosas, entonces la recompensa es una mejor regresión.

Tal y como se prometió en el punto 1, a continuación analizaremos las unidades correctas para un sistema físico. Dado que los buenos resultados de la regresión dependen del tratamiento correcto de las variables, debemos tener en cuenta las dimensiones habituales de unidades físicas y equilibrar nuestras ecuaciones adecuadamente. Además, para las aplicaciones biológicas, es necesario conocer y tener en cuenta la dimensionalidad de escala alométrica es necesario.

Por favor, lea este ejemplo de investigación física de un sistema biológico para saber cómo extender el equilibrio de unidades a la biología. En ese documento, se siguieron los pasos 1) a 4) anteriores y se encontró la mejor fórmula utilizando un extenso análisis de regresión, a saber, $GFR=k∗W^{1/4}V^{2/3}$ donde $GFR$ es la tasa de filtración glomerular, un marcador del catabolismo, donde las unidades se entienden utilizando geometría fractal tal que $W$ El peso era un construcción geométrica fractal de cuatro dimensiones y V, volumen, se denominaba variable euclidiana o tridimensional. Entonces $1=\frac{1}{4} \frac{4}{3}+\frac{2}{3}$ . Para que la fórmula sea dimensionalmente coherente con el metabolismo. No es una afirmación fácil de entender. Considere que 1) Generalmente no se aprecia (se desconoce) que $GFR$ es un marcador del metabolismo. 2) La geometría fractal se enseña con poca frecuencia y la interpretación física de la fórmula presentada es difícil de comprender incluso para alguien con formación matemática.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X