1 votos

¿Hay que controlar a los no confederados?

El error estándar de la variable de interés $x$ se puede calcular como

$$s.e.({\hat\beta_x})=\sqrt{VIF_x\frac{\sigma_\varepsilon^2}{nVar(x)}} $$

Como siempre, $\sigma_\varepsilon^2=\sum_i\varepsilon_i^2 $ es la varianza del error de regresión y $VIF_x$ es el factor de inflación de la varianza de $x$ .

Si ahora se controla una segunda variable $z$ (que resulta ser muy significativa), se reducen inevitablemente los residuos $\varepsilon_i$ lo que lleva a su vez a una reducción de $\sigma_\varepsilon^2$ . Porque $z$ no es un factor de confusión, $VIF_x$ se mantiene sin cambios. En definitiva, $s.e.(\hat\beta_x)$ se hundiría.

Si mi pensamiento es correcto, entonces uno trataría de controlar en grandes conjuntos de datos (digamos, 100k observaciones) tantas variables de control altamente significativas como sea posible. Esto se debe a que la pérdida de grados de libertad es insignificante y la $p$ -El valor de la variable de interés baja.

El control de los no-confundidos parece ser una cuestión bastante importante para acertar en la estadística aplicada. Por lo tanto, me pregunto si mi argumento es correcto o si he entendido algo mal.

Mis mejores deseos, Tom

3voto

alexs77 Puntos 36

El VIF no nos da demasiadas intuiciones sobre el modelado causal. Si un factor de confusión está muy correlacionado con la exposición y el resultado, debe ajustarse por él aunque reduzca la potencia del análisis.

Se trata de variables de precisión. Si una covariable predice (o causa) el resultado de interés, y no tiene asociación con el predictor de interés, debe ajustarse por ella. Estas variables de "precisión" sólo aumentan la potencia del análisis. Por tanto, su relevancia en la selección del modelo se aplica más a los aspectos estadísticos del análisis que a los científicos.

La significación estadística no es la base para seleccionar dichas covariables para su ajuste en los análisis. Una covariable puede tener una asociación estadísticamente significativa con el resultado porque es un mediador o un factor de confusión, por lo que el ajuste por ella sesga los análisis y reduce la potencia. Alternativamente, una covariable puede ser un factor de confusión real a pesar de tener una asociación no estadísticamente significativa con el resultado después de ajustar por otras variables. Las covariables se eligen para el ajuste dibujando Gráficos Acíclicos Dirigidos (DAG) y asegurándose de que se cumplen los criterios para una modelización causal adecuada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X