Estoy modelando el estado de ánimo de los adolescentes en una escuela muy grande. La respuesta es "buen humor" y "mal humor". Una de las variables que se utiliza para explicar el estado de ánimo de los estudiantes es "Área de residencia". La variable explicativa "Área de residencia" tiene 5 categorías: Área1, Área2,...,Área5 y para el colegio grande sus coeficientes se calculan que son $\hat{\beta_1}, \hat{\beta_2},...,\hat{\beta_5}$
También estoy modelando el estado de ánimo de los estudiantes en una escuela muy pequeña, y no tenemos muchos datos. Un investigador dice que para todas las variables explicativas categóricas que hemos calculado antes (para la escuela grande), podemos utilizar simplemente esos coeficientes calculados como restricciones en el análisis de la escuela pequeña. Por ejemplo, en muchos de los nuevos programas estadísticos existe la opción de "guardar" un grupo de coeficientes calculados para una variable explicativa, lo que básicamente nos proporciona una función especial que puede utilizarse posteriormente en otro análisis GLM/GAM (para las mismas variables categóricas).
Para la escuela pequeña tenemos una cantidad de datos tan escasa que ninguna de las categorías (Área1-Area5) tiene valores p significativos (somos un grupo de investigación de "evaluemos simplemente los valores p"). Utilizando las restricciones que hemos calculado para la escuela grande, tenemos el modelo
$log\frac{\pi}{1-\pi} = \beta_{new}[Area1=\hat{\beta_1}, Area2=\hat{\beta_2}, ... , Area5=\hat{\beta_5}]$
Sólo $\beta_{new}$ se estima en el modelo para la escuela pequeña, mientras que las otras betas están "restringidas". La idea, o la justificación, es que la variable "Zona de residencia" afecta al estado de ánimo de los alumnos exactamente igual formulario (la relación entre las categorías es la misma) en ambas escuelas, con la salvedad de que el "efecto" puede atenuarse o acentuarse en función de la estimación MLE de $\beta_{new}$ .
Ahora, imagine que hace esto con, digamos, 10 variables diferentes y evalúa los valores p de los 10 coeficientes $\beta_{new_1}, \beta_{new_2}, ..., \beta_{new_{10}}$ . Algún valor p en $\beta_{new_i}$ ser significativo debido al azar y se extrae la conclusión errónea de que "la relación entre las categorías de la variable "x" es la misma en las dos escuelas".
Pregunta 1 : ¿No es esta otra versión elegante del dragado de datos de las técnicas de regresión por pasos ( buena respuesta aquí )?
Pregunta 2 : Esto es básicamente un intento de ser innovador, y ser capaz de utilizar la información extraída de una gran fuente, y extrapolarla hacia una fuente más pequeña. ¿Estoy en lo cierto al pensar que esto podría ser una buena idea si uno creía firmemente en el corazón que, por ejemplo, "Zona de residencia" debe ¿se comportan igual en las dos escuelas? ¿Pero una idea desastrosa cuando se tantea a ciegas en la oscuridad tratando de tantear los valores p para determinar qué variables se comportan igual (tienen la misma forma) en las dos escuelas?
Pregunta 3 :@Repmat señala en su respuesta que la elección del funcional correcto no es crítica. Y, si entiendo bien, si fuera crítico, lo verías en tus conjuntos de prueba y validación. Pero, ¿y si el método descrito anteriormente se utilizara en la realización de todo los modelos (porque es una creencia común que es un buen método)? Entonces, ¿no estaría comparando sólo modelos malos - dejándome con el modelo menos malo?
Reflexiones y solicitud de referencias Al ver esto me hizo pensar en lo desastroso que puede ser hacer un análisis GLM/GAM con el funcional equivocado de alguna covariable. Por ejemplo, si uno fuera capaz de ajustar $E[y] = x^2$ aunque $E[y] = x $ fuera un modelo más verdadero (como traté de explicar más arriba), esto sería horrible para las futuras predicciones de $E[y]$ . ¿Existe alguna investigación sobre las consecuencias de la elección de la función equivocada?
EDITAR : ha arreglado parte de la estructura de esta pregunta.