6 votos

¿Qué variables hay que controlar en la regresión?

Hay numerosos debates en este sitio sobre cómo controlar ciertas variables en el análisis de regresión.

Sin embargo, existen variables ilimitadas en el universo. Y en la investigación psicológica/epidemiológica, hay muchas variables demográficas (por ejemplo, edad, sexo, ingresos, estado civil, número de hijos, etc.). ¿Cuándo hay que controlarlas? ¿Existe una regla general?

Por ejemplo, si income se espera que afecte a mi VD, pero no está significativamente correlacionado con ella, ¿debo controlarlo? Por otra parte, si age no se espera que influya en mi VD, pero está significativamente correlacionado con mi VD, ¿debo controlarlo?

5 votos

(+1) Aunque parezca sencillo de responder: "Cuando usted, como experto en su campo, cree que la variable afecta a su resultado" A menudo hay mucha incertidumbre sobre lo que puede y no puede afectar al resultado. Además, "corregir" variables que no es necesario corregir puede empeorar la calidad de las estimaciones.

0 votos

¿Cuál es el objetivo de su análisis? ¿Quiere afirmar que, por ejemplo, income ¿"predice" condicionalmente su VD o afirmar que "afecta" a su VD?

0 votos

Como en la respuesta de abajo hablas de confusión, supongo que te refieres a esto último, porque la confusión es un concepto causal, no asociativo.

6voto

James Puntos 21

Si hay motivos teóricos para sospechar que una variable es un confusor entonces debe incluirse en el modelo para corregir su efecto. Por otro lado, mediadores por lo general, no debe incluirse en el modelo. Aunque podría parecer una buena idea corregir el mayor número posible de posibles factores de confusión, en realidad hay un buen número de razones para no hacerlo.

Cuándo corregir una variable

Una buena respuesta, aunque no siempre útil, a esta pregunta es:

"Cuando usted, como experto en su campo, cree que la variable afecta a su resultado".

En primer lugar, hablemos de por qué es una buena respuesta . Hay muchas razones importantes por las que es una mala idea corregir un gran número de variables. Claro que puede haber variables ilimitadas en el universo, pero...

  1. ...todas ellas no tienen un efecto único sobre el resultado y la inclusión de variables con alta correlación entre pares dará lugar a multicolinealidad ;
  2. ...no tienes datos ilimitados y todo lo que modelas te cuesta grados de libertad
  3. ...la inclusión de (demasiadas) variables (que predicen mal el resultado) da lugar a sobreajuste .;

Multicolinealidad se produce cuando una variable explicativa puede explicarse a su vez como una combinación de otras variables explicativas. En otras palabras, incluir todo que pueden afectar al resultado significa que muchas de las variables también tendrán algún efecto sobre las demás. Por si fuera poco, ni siquiera es necesario que haya alto correlación entre las variables explicativas Siempre que uno o varios puedan explicarse en función de los otros.

Grados de libertad son necesarios para estimar cada parámetro. La inclusión de variables que afectan al resultado de forma marginal o que no afectan en absoluto le cuesta grados de libertad, sin obtener una mejora en el ajuste del modelo. Si quiere informar de la importancia de las estimaciones, esto también significa que perderá potencia para todo lo que intente corregir.

Un modelo sobreajustado está ajustando la parte estocástica del proceso, en lugar de la parte sistemática. En otras palabras, un modelo con demasiados parámetros tenderá a explicar la varianza en el resultado que simplemente está ahí debido a la variabilidad aleatoria natural de la muestra, en lugar de deberse a algún proceso subyacente. Los modelos sobreajustados parecen funcionar muy bien en la muestra, pero tienen un mal rendimiento fuera de ella (es decir, generalizan muy mal).

Por lo tanto, generalmente se prefiere una justificación teórica para la inclusión de variables en lugar de añadir más y más variables para corregir.

Otro argumento a favor de la respuesta es que no hay una alternativa sencilla para elegir las variables importantes "como experto en la materia" . Puede parecer tentador incluir todas las variables posiblemente implicadas y luego limitarse a una búsqueda exhaustiva de las más importantes (lo que se conoce como regresión por pasos), pero esto es en realidad un muy mala idea .

En segundo lugar, vamos a discutir por qué no siempre es una respuesta útil . Si El conocimiento de los expertos puede decidir la inclusión de variables, este es el camino a seguir. Sin embargo, este enfoque supone que el proceso de generación de datos ya se conoce bien y que esta elección de variables puede hacerse de forma razonable. Además, ¡supone que este conocimiento experto es correcto! En la práctica, suele haber mucha incertidumbre sobre lo que puede y no puede afectar al resultado. Variables al acecho que se excluyen porque no se sabe si afectan al resultado no se descubrirán.

Por ello, hay muchos alternativas propuestas a la regresión por pasos La mayoría de ellos son alguna forma de regularización. Por ejemplo:

  • La penalización LASSO reduce ciertos coeficientes a cero, seleccionando esencialmente los que no son cero;
  • La regresión Ridge lo hace de forma que respeta más la correlación por pares entre los predictores, pero no puede reducirse a cero (es decir, no puede seleccionar variables);
  • La red elástica combina las sanciones;
  • La herradura es otra forma de encogimiento que pretende ser "lo mejor de ambos";
  • Los mínimos cuadrados parciales descomponen las variables explicativas y añaden pesos a los componentes principales en función de su correlación con el resultado.

Sin embargo, tenga en cuenta que no hay garantía de que LASSO o cualquier otro método elija el a la derecha variables. Es mejor elegir cuál incluir basándose en el conocimiento de los expertos, si es posible . Si hay suficientes observaciones, la precisión de la predicción puede ayudar decidir qué modelo es el mejor .

¿Significa eso que estamos atrapados para siempre en una laguna para decidir qué variables incluir? No lo creo y creo que aquí es donde el análisis exploratorio puede ayudar. Si realmente no se tiene ni idea de la inclusión de un conjunto de variables candidatas, quizás el primer estudio debería limitarse a investigar las posibles relaciones y indicar claramente en el informe que el análisis es de carácter exploratorio . En un segundo estudio, se pueden utilizar nuevos conjuntos de datos independientes para verificar cuáles de estas relaciones encontradas no son espurias. Esto no difiere demasiado de mi campo (la biología), en el que se estudian grandes conjuntos de genes, proteínas o metabolitos con algún enfoque "de escopeta", seguido de la confirmación mediante un enfoque dirigido en nuevas muestras.

0 votos

Excelente respuesta. Una pregunta rápida de seguimiento. Si el conocimiento de los expertos cree que algunas variables son potenciales factores de confusión, pero no tienen correlaciones significativas con ningún IV, DV, y tienen poca colinealidad con otras variables, ¿debemos controlarlas?

1 votos

En el modelo actual sí, en un estudio futuro quizás no. Conocer su importancia significa que están en el modelo actual, por lo que excluirlos basándose en este conocimiento sería una forma de regresión por pasos. Sin embargo, si el tamaño del efecto es muy pequeño e insignificante, entonces quizás en un estudio consecutivo con nuevos datos se podría optar por omitirlos del modelo.

1 votos

Quizá deba añadir que no hay nada malo en combinar la regularización y el conocimiento experto. Si tiene motivos sólidos para incluir un gran conjunto de variables potencialmente confusas, puede considerar la posibilidad de reducir sus coeficientes con, por ejemplo, la regresión de cresta.

3voto

Ran Kerry Puntos 1

Sin embargo, existen variables ilimitadas en el universo. Y en la investigación en psicología/epidemiología, hay una gran cantidad de variables demográficas demográficas (por ejemplo, edad, sexo, ingresos, estado civil, número de hijos, etc.). ¿Cuándo hay que controlarlas? ¿Existe una regla regla general?

Si le preocupa la predicción observacional, la selección de variables es una consecuencia natural de sus criterios de selección de modelos basados en el rendimiento predictivo. Pero parece que te preocupa el sesgo para hacer inferencia causal. Es decir, quieres hacer afirmaciones causales científicas basadas en tus resultados.

Si ese es el caso, el problema de saber qué variables seleccionar para la identificación de una afirmación causal a través del ajuste ha sido resuelto (matemáticamente) : debe incluir en su regresión las variables que satisfacen la criterio de la puerta trasera --- es decir, se trata de variables que bloquean todas las vías de acceso (de confusión) de $X$ a $Y$ no abren otras vías espurias y no median el efecto que se intenta medir. También debería echar un vistazo aquí y aquí.

La puerta trasera tiene que ver con la identificación. Después hay que considerar la eficiencia. Es posible que haya variables que no sean "factores de confusión" pero que le ayuden a obtener estimaciones más precisas, por lo que es posible que quiera ajustarlas. Y si tiene demasiadas variables que sabe que necesita controlar, pero muy pocos datos en relación con la cantidad de variables, podría querer recurrir a técnicas de regularización, intercambiando algo de sesgo por menos varianza, pero teniendo en cuenta que está haciendo la regularización para optimizar la inferencia con respecto a una cantidad causal específica, no una predicción observacional general. Por ejemplo, es posible que desee comprobar los métodos de aprendizaje automático dobles/debidos.

2voto

Abhirup Manna Puntos 475

Sólo para añadir un comentario a la respuesta de @Frans Rodenburg: Sobreajuste también puede ser un problema. Es decir, no se quiere controlar variables para las que no tiene sentido mantenerlas fijas cuando se varía la variable de interés. Esto es típico si la variable se encuentra en la vía causal desde la exposición hasta el punto final. Por ejemplo, si se modela la mortalidad infantil con la edad materna, posiblemente no se quiera controlar el peso al nacer, porque el impacto de la edad materna es específicamente debido a que afecta al peso al nacer. El ceteris paribus significaría aquí que se varía la edad materna con el peso al nacer fijo que simplemente no lo que nos interesa. Por supuesto, puede ocurrir que la edad materna tenga algún efecto indirecto, es decir, algo que no esté mediado por el peso al nacer, en cuyo caso el modelo sigue teniendo sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X