Si hay motivos teóricos para sospechar que una variable es un confusor entonces debe incluirse en el modelo para corregir su efecto. Por otro lado, mediadores por lo general, no debe incluirse en el modelo. Aunque podría parecer una buena idea corregir el mayor número posible de posibles factores de confusión, en realidad hay un buen número de razones para no hacerlo.
Cuándo corregir una variable
Una buena respuesta, aunque no siempre útil, a esta pregunta es:
"Cuando usted, como experto en su campo, cree que la variable afecta a su resultado".
En primer lugar, hablemos de por qué es una buena respuesta . Hay muchas razones importantes por las que es una mala idea corregir un gran número de variables. Claro que puede haber variables ilimitadas en el universo, pero...
- ...todas ellas no tienen un efecto único sobre el resultado y la inclusión de variables con alta correlación entre pares dará lugar a multicolinealidad ;
- ...no tienes datos ilimitados y todo lo que modelas te cuesta grados de libertad
- ...la inclusión de (demasiadas) variables (que predicen mal el resultado) da lugar a sobreajuste .;
Multicolinealidad se produce cuando una variable explicativa puede explicarse a su vez como una combinación de otras variables explicativas. En otras palabras, incluir todo que pueden afectar al resultado significa que muchas de las variables también tendrán algún efecto sobre las demás. Por si fuera poco, ni siquiera es necesario que haya alto correlación entre las variables explicativas Siempre que uno o varios puedan explicarse en función de los otros.
Grados de libertad son necesarios para estimar cada parámetro. La inclusión de variables que afectan al resultado de forma marginal o que no afectan en absoluto le cuesta grados de libertad, sin obtener una mejora en el ajuste del modelo. Si quiere informar de la importancia de las estimaciones, esto también significa que perderá potencia para todo lo que intente corregir.
Un modelo sobreajustado está ajustando la parte estocástica del proceso, en lugar de la parte sistemática. En otras palabras, un modelo con demasiados parámetros tenderá a explicar la varianza en el resultado que simplemente está ahí debido a la variabilidad aleatoria natural de la muestra, en lugar de deberse a algún proceso subyacente. Los modelos sobreajustados parecen funcionar muy bien en la muestra, pero tienen un mal rendimiento fuera de ella (es decir, generalizan muy mal).
Por lo tanto, generalmente se prefiere una justificación teórica para la inclusión de variables en lugar de añadir más y más variables para corregir.
Otro argumento a favor de la respuesta es que no hay una alternativa sencilla para elegir las variables importantes "como experto en la materia" . Puede parecer tentador incluir todas las variables posiblemente implicadas y luego limitarse a una búsqueda exhaustiva de las más importantes (lo que se conoce como regresión por pasos), pero esto es en realidad un muy mala idea .
En segundo lugar, vamos a discutir por qué no siempre es una respuesta útil . Si El conocimiento de los expertos puede decidir la inclusión de variables, este es el camino a seguir. Sin embargo, este enfoque supone que el proceso de generación de datos ya se conoce bien y que esta elección de variables puede hacerse de forma razonable. Además, ¡supone que este conocimiento experto es correcto! En la práctica, suele haber mucha incertidumbre sobre lo que puede y no puede afectar al resultado. Variables al acecho que se excluyen porque no se sabe si afectan al resultado no se descubrirán.
Por ello, hay muchos alternativas propuestas a la regresión por pasos La mayoría de ellos son alguna forma de regularización. Por ejemplo:
- La penalización LASSO reduce ciertos coeficientes a cero, seleccionando esencialmente los que no son cero;
- La regresión Ridge lo hace de forma que respeta más la correlación por pares entre los predictores, pero no puede reducirse a cero (es decir, no puede seleccionar variables);
- La red elástica combina las sanciones;
- La herradura es otra forma de encogimiento que pretende ser "lo mejor de ambos";
- Los mínimos cuadrados parciales descomponen las variables explicativas y añaden pesos a los componentes principales en función de su correlación con el resultado.
Sin embargo, tenga en cuenta que no hay garantía de que LASSO o cualquier otro método elija el a la derecha variables. Es mejor elegir cuál incluir basándose en el conocimiento de los expertos, si es posible . Si hay suficientes observaciones, la precisión de la predicción puede ayudar decidir qué modelo es el mejor .
¿Significa eso que estamos atrapados para siempre en una laguna para decidir qué variables incluir? No lo creo y creo que aquí es donde el análisis exploratorio puede ayudar. Si realmente no se tiene ni idea de la inclusión de un conjunto de variables candidatas, quizás el primer estudio debería limitarse a investigar las posibles relaciones y indicar claramente en el informe que el análisis es de carácter exploratorio . En un segundo estudio, se pueden utilizar nuevos conjuntos de datos independientes para verificar cuáles de estas relaciones encontradas no son espurias. Esto no difiere demasiado de mi campo (la biología), en el que se estudian grandes conjuntos de genes, proteínas o metabolitos con algún enfoque "de escopeta", seguido de la confirmación mediante un enfoque dirigido en nuevas muestras.
5 votos
(+1) Aunque parezca sencillo de responder: "Cuando usted, como experto en su campo, cree que la variable afecta a su resultado" A menudo hay mucha incertidumbre sobre lo que puede y no puede afectar al resultado. Además, "corregir" variables que no es necesario corregir puede empeorar la calidad de las estimaciones.
0 votos
¿Cuál es el objetivo de su análisis? ¿Quiere afirmar que, por ejemplo,
income
¿"predice" condicionalmente su VD o afirmar que "afecta" a su VD?0 votos
Como en la respuesta de abajo hablas de confusión, supongo que te refieres a esto último, porque la confusión es un concepto causal, no asociativo.
0 votos
@CarlosCinelli Mi estudio es un estudio por cuestionario, que incluye muchas variables demográficas y algunas psicológicas. Mi objetivo es ver si algunas variables podrían seguir "prediciendo" la una o dos VD que me interesan después de controlar algunos posibles factores de confusión.
0 votos
@JetLag pero ¿qué quieres reclamar? ¿Simplemente quieres verificar si estas variables siguen asociadas después de controlar otras variables? Para este tipo de afirmación puramente asociativa el concepto de confusor no tiene sentido. O siguen asociadas o no lo están, sólo estás describiendo asociaciones condicionales.
0 votos
@CarlosCinelli Quiero afirmar que X1 podría seguir prediciendo Y, después de controlar X2 y X3 (posibles factores de confusión). Espero que esta afirmación implique que hay algunos elementos únicos en X1 para predecir Y.
0 votos
Si eso es lo que quieres probar, tu pregunta no tiene sentido: simplemente incluye $X_2$ y $X_3$ . Obsérvese que sólo son "factores de confusión" si se trata de estimar un parámetro estructural, de lo contrario sólo se están estimando diferentes expectativas condicionales. Y si lo que quieres es la expectativa condicional dada $X_2$ y $X_3$ Incluirlos, no significa que el resultado tenga una interpretación estructural/causal.
0 votos
@CarlosCinelli Creo que la discusión principal de esta cuestión es cómo decidir qué variables son confusoras.
1 votos
Así que deberías echar un vistazo aquí: stats.stackexchange.com/questions/59369/confounder-definition/