Estoy dando una clase sobre regresión logística con SPSS. El libro de texto proporciona un conjunto de datos de muestra con un predictor binario y dos covariables numéricas. La muestra contiene 1000 filas y varias de estas entradas tienen valores comunes para ambos predictores. Un predictor sólo toma 5 valores, por ejemplo, y el otro toma unos 20 valores distintos.
Según la documentación del SPSS, cuando esto ocurre, el SPSS trata los datos como procedentes de subpoblaciones, definidas a través de los valores comunes. Esto parece producir una probabilidad diferente y grados de libertad diferentes para el AIC que lo que se obtiene si se ignoran las subpoblaciones.
He ejecutado el conjunto de datos en R, utilizando glm. Los grados de libertad fueron 997, AIC=508.93
En SPSS, obtengo 99 grados de libertad (a efectos de bondad de ajuste) y AIC=181,341. Las estimaciones de los coeficientes son las mismas en ambas aplicaciones.
Para empeorar las cosas, cuando ajusto el modelo en SPSS con sólo 1 de los 2 predictores, la probabilidad es MAYOR que con el modelo de 2 predictores: -87 para el modelo de 2 parámetros, y -47 para el modelo de 1 parámetro. El AIC también es mucho menor en el modelo de 1 parámetro, pero todo lo demás sugiere que ambos predictores son significativos y necesarios. Hasta aquí el criterio AIC.
He jitrado los datos en R y los he devuelto a SPSS. Entonces obtuve prácticamente los mismos resultados que en R con glm, ya que no había "subpoblaciones" fantasma con las que SPSS tuviera que lidiar.
Preguntas:
- ¿puede alguien proporcionar una referencia que justifique el tratamiento de los datos como si procedieran de subpoblaciones (lo que en realidad no ocurre en este caso) cuando los predictores contienen conjuntos de valores comunes?
- ¿Cómo se supone que voy a enseñar a probar modelos comparando la desviación entre dos modelos, utilizando el SPSS y este conjunto de datos, teniendo en cuenta lo que está sucediendo?
- ¿Puedo hacer que SPSS se comporte como R?