4 votos

Consecuencia de la elección de un funcional incorrecto de las covariables en el GLM/GAM

Estoy modelando el estado de ánimo de los adolescentes en una escuela muy grande. La respuesta es "buen humor" y "mal humor". Una de las variables que se utiliza para explicar el estado de ánimo de los estudiantes es "Área de residencia". La variable explicativa "Área de residencia" tiene 5 categorías: Área1, Área2,...,Área5 y para el colegio grande sus coeficientes se calculan que son $\hat{\beta_1}, \hat{\beta_2},...,\hat{\beta_5}$

También estoy modelando el estado de ánimo de los estudiantes en una escuela muy pequeña, y no tenemos muchos datos. Un investigador dice que para todas las variables explicativas categóricas que hemos calculado antes (para la escuela grande), podemos utilizar simplemente esos coeficientes calculados como restricciones en el análisis de la escuela pequeña. Por ejemplo, en muchos de los nuevos programas estadísticos existe la opción de "guardar" un grupo de coeficientes calculados para una variable explicativa, lo que básicamente nos proporciona una función especial que puede utilizarse posteriormente en otro análisis GLM/GAM (para las mismas variables categóricas).

Para la escuela pequeña tenemos una cantidad de datos tan escasa que ninguna de las categorías (Área1-Area5) tiene valores p significativos (somos un grupo de investigación de "evaluemos simplemente los valores p"). Utilizando las restricciones que hemos calculado para la escuela grande, tenemos el modelo

$log\frac{\pi}{1-\pi} = \beta_{new}[Area1=\hat{\beta_1}, Area2=\hat{\beta_2}, ... , Area5=\hat{\beta_5}]$

Sólo $\beta_{new}$ se estima en el modelo para la escuela pequeña, mientras que las otras betas están "restringidas". La idea, o la justificación, es que la variable "Zona de residencia" afecta al estado de ánimo de los alumnos exactamente igual formulario (la relación entre las categorías es la misma) en ambas escuelas, con la salvedad de que el "efecto" puede atenuarse o acentuarse en función de la estimación MLE de $\beta_{new}$ .

Ahora, imagine que hace esto con, digamos, 10 variables diferentes y evalúa los valores p de los 10 coeficientes $\beta_{new_1}, \beta_{new_2}, ..., \beta_{new_{10}}$ . Algún valor p en $\beta_{new_i}$ ser significativo debido al azar y se extrae la conclusión errónea de que "la relación entre las categorías de la variable "x" es la misma en las dos escuelas".

Pregunta 1 : ¿No es esta otra versión elegante del dragado de datos de las técnicas de regresión por pasos ( buena respuesta aquí )?

Pregunta 2 : Esto es básicamente un intento de ser innovador, y ser capaz de utilizar la información extraída de una gran fuente, y extrapolarla hacia una fuente más pequeña. ¿Estoy en lo cierto al pensar que esto podría ser una buena idea si uno creía firmemente en el corazón que, por ejemplo, "Zona de residencia" debe ¿se comportan igual en las dos escuelas? ¿Pero una idea desastrosa cuando se tantea a ciegas en la oscuridad tratando de tantear los valores p para determinar qué variables se comportan igual (tienen la misma forma) en las dos escuelas?

Pregunta 3 :@Repmat señala en su respuesta que la elección del funcional correcto no es crítica. Y, si entiendo bien, si fuera crítico, lo verías en tus conjuntos de prueba y validación. Pero, ¿y si el método descrito anteriormente se utilizara en la realización de todo los modelos (porque es una creencia común que es un buen método)? Entonces, ¿no estaría comparando sólo modelos malos - dejándome con el modelo menos malo?

Reflexiones y solicitud de referencias Al ver esto me hizo pensar en lo desastroso que puede ser hacer un análisis GLM/GAM con el funcional equivocado de alguna covariable. Por ejemplo, si uno fuera capaz de ajustar $E[y] = x^2$ aunque $E[y] = x $ fuera un modelo más verdadero (como traté de explicar más arriba), esto sería horrible para las futuras predicciones de $E[y]$ . ¿Existe alguna investigación sobre las consecuencias de la elección de la función equivocada?

EDITAR : ha arreglado parte de la estructura de esta pregunta.

1voto

Repmat Puntos 1118

Se está planteando la pregunta central de cualquier análisis de tipo paramétrico, ¿qué pasa si mi modelo (en casu la forma funcional) es erróneo? Esto no es tan deprimente como se podría pensar, se pierde la insesgadez pero se puede mantener la coherencia siempre que los regresores sean realmente exógenos. Por lo tanto, la cuestión relevante es realmente si hay variables omitidas. Si las tiene, las estimaciones son sencillamente erróneas, y nada (en general) puede librarle de ello suponiendo que no tenga un instrumento.

Mencionas las predicciones, si este es tu interés entonces la consistencia podría ser menos importante y lo anterior no debería preocuparte demasiado. Sus conjuntos de prueba y validación le dirán si lo está haciendo bien.

En cualquier caso, poco se puede hacer, salvo conseguir más datos o conformarse con lo que se tiene.

1voto

patfla Puntos 1

Una forma de pensar en lo que estás haciendo, que muestra que esto no es un dragado de datos. Si consideras las escuelas grandes + pequeñas como un conjunto de datos (persona $i $ , área $a $ , escuela $s $ ), entonces se tiene un modelo general de:

$$\eta_{ias}=\beta_{as}$$

Y su modelo restringido corresponde al siguiente supuesto (b=escuela grande, l=escuela pequeña):

$$\frac {\beta_{ab}}{\beta_{al}}=\beta_{new} $$

Y se puede escribir el modelo restringido como :

$$\eta_{ias}=\beta_{ab}\beta_{new}^{I\{s=l\}}$$

Por tanto, puede encajar en el marco de la prueba de razón de verosimilitud, ya que su hipótesis consiste en restringir el espacio de parámetros del modelo completo (el modelo completo es aquel en el que se estima el efecto de cada área por separado). Esta es una forma de obtener un efecto global de si la simplificación está haciendo un buen trabajo.

Sin embargo, se trata de un MLG no lineal, por lo que la distribución bajo la hipótesis nula puede no ser chisquar. Podría ser bueno utilizar el bootstrap paramétrico o algo así (véase más abajo para un esquema aproximado)

Este MLG no lineal puede iterarse entre dos MLG lineales. Fijar $\beta_{new} $ Entonces, calcula $\beta_{ab} $ . Entonces arregla $\beta_{ab} $ y estimar $\beta_{new} $ . El método que has escrito es un ciclo de este enfoque, estableciendo el valor inicial de $\beta_{new}$ igual a cero. La justificación de utilizar sólo una iteración es que la escuela grande tiene más datos, por lo que la influencia de los datos de la escuela pequeña en la estimación de los parámetros comunes es insignificante. La segunda iteración sólo incluye las unidades de la escuela pequeña.

Además, no se necesitan "restricciones" para estimar estos modelos, sólo una matriz de diseño modificada para cada regresión. En el primer modelo ( $\beta_{new} $ fijo) en lugar de variables ficticias 0-1 para cada área, tiene $\beta_{new}^{I\{s=l\}} $ en lugar del "1" (es decir, sustituir los "1" de la matriz de diseño por $\beta_{new}$ para las unidades escolares pequeñas). Para el segundo modelo, la matriz de diseño es el predictor lineal del primer modelo ( $\beta_{ab} $ ) y el modelo ajustado no tiene intercepción.

Pero lo más importante es que, como el modelo no es estrictamente un MLG, es posible que no pueda confiar en la teoría de aproximación normal estándar para obtener sus valores p. Debería comprobar que este es el caso. Esto no es difícil de hacer:

  1. simule los datos de su modelo utilizando las betas que ha estimado. Mantenga las muestras de escuelas grandes/pequeñas asimétricas, y mantenga las mismas distribuciones de área (es decir, sólo cambie la respuesta binaria que está modelando)
  2. Reajustar el modelo utilizando los datos simulados en el paso 1, obteniendo las estimaciones de los parámetros simulados
  3. Repita los pasos 1 y 2 varias veces (por ejemplo $500$ más o menos)

Las betas simuladas deben tener una distribución normal aproximada. También debe comprobar que las estimaciones de la varianza de la beta se acercan a la varianza de las betas simuladas correspondientes. También puede volver a ajustar el modelo alternativo, más flexible, y comprobar la distribución de la razón de verosimilitud en las simulaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X