7 votos

Modelo lineal generalizado en SPSS con valores comunes entre los predictores tratados como subpoblaciones. ¿Por qué?

Estoy dando una clase sobre regresión logística con SPSS. El libro de texto proporciona un conjunto de datos de muestra con un predictor binario y dos covariables numéricas. La muestra contiene 1000 filas y varias de estas entradas tienen valores comunes para ambos predictores. Un predictor sólo toma 5 valores, por ejemplo, y el otro toma unos 20 valores distintos.

Según la documentación del SPSS, cuando esto ocurre, el SPSS trata los datos como procedentes de subpoblaciones, definidas a través de los valores comunes. Esto parece producir una probabilidad diferente y grados de libertad diferentes para el AIC que lo que se obtiene si se ignoran las subpoblaciones.

He ejecutado el conjunto de datos en R, utilizando glm. Los grados de libertad fueron 997, AIC=508.93

En SPSS, obtengo 99 grados de libertad (a efectos de bondad de ajuste) y AIC=181,341. Las estimaciones de los coeficientes son las mismas en ambas aplicaciones.

Para empeorar las cosas, cuando ajusto el modelo en SPSS con sólo 1 de los 2 predictores, la probabilidad es MAYOR que con el modelo de 2 predictores: -87 para el modelo de 2 parámetros, y -47 para el modelo de 1 parámetro. El AIC también es mucho menor en el modelo de 1 parámetro, pero todo lo demás sugiere que ambos predictores son significativos y necesarios. Hasta aquí el criterio AIC.

He jitrado los datos en R y los he devuelto a SPSS. Entonces obtuve prácticamente los mismos resultados que en R con glm, ya que no había "subpoblaciones" fantasma con las que SPSS tuviera que lidiar.

Preguntas:

  1. ¿puede alguien proporcionar una referencia que justifique el tratamiento de los datos como si procedieran de subpoblaciones (lo que en realidad no ocurre en este caso) cuando los predictores contienen conjuntos de valores comunes?
  2. ¿Cómo se supone que voy a enseñar a probar modelos comparando la desviación entre dos modelos, utilizando el SPSS y este conjunto de datos, teniendo en cuenta lo que está sucediendo?
  3. ¿Puedo hacer que SPSS se comporte como R?

3voto

Awais Tariq Puntos 116

He investigado un poco después de publicar mi pregunta y básicamente lo he averiguado. @JKP tiene razón, básicamente. Hay una discusión detallada de esto en McCullagh y Nelder, Modelos lineales generalizados. El modelo de subpoblación supone que el número de categorías se mantiene constante a medida que aumenta la población. Piense en una tabla de contingencia en la que las filas y las columnas son constantes pero el número de celdas tiende al infinito. Los grados de libertad implican un ajuste para el número de celdas. Eso parece ser lo que implementa SPSS en el menú Modelo lineal generalizado.

Esto explica por qué obtuve resultados incompatibles cuando añadí una variable. Las categorías cambiaron. El modelo de dos parámetros ya no está anidado en el modelo de un parámetro, como lo estaría cuando el análisis se hace por casos.

El menú Regresión -> Logística binaria de SPSS le permite introducir las variables una a una (en lo que denomina Bloques), y luego realiza las pruebas de chi-cuadrado del análisis de desviación por usted. Utilizando ese menú pude obtener los mismos resultados que en R.

En mi conjunto de datos de muestra, el número de categorías es accidental (resultado del redondeo de una variable potencialmente continua), y probablemente aumentaría con un mayor tamaño de la muestra. No estoy seguro de que el modelo de subpoblación sea apropiado en este caso. No es el realizado por el libro de texto, debo añadir, que parece ignorar la cuestión.

0voto

talonx Puntos 262

Parece que está utilizando el procedimiento NOMREG. De la ayuda de SPSS NOMREG. Tenga en cuenta que también puede utilizar el nuevo procedimiento GENLIN para ajustar un modelo logístico. Los tres darán los mismos coeficientes y errores estándar pero pueden diferir en otros resultados.

Los modelos de regresión logística binaria pueden ajustarse utilizando el procedimiento de regresión logística o el procedimiento de regresión logística multinomial. Cada procedimiento tiene opciones que no están disponibles en el otro. Una distinción teórica importante es que el procedimiento de Regresión Logística produce todas las predicciones, los residuos, los estadísticos de influencia y las pruebas de bondad de ajuste utilizando datos a nivel de caso individual, independientemente de cómo se introduzcan los datos y de si el número de patrones de covariables es o no menor que el número total de casos, mientras que el procedimiento de Regresión Logística Multinomial agrega internamente los casos para formar subpoblaciones con patrones de covariables idénticos para los predictores, produciendo predicciones, residuos y pruebas de bondad de ajuste basadas en estas subpoblaciones. Si todos los predictores son categóricos o cualquier predictor continuo toma sólo un número limitado de valores -de modo que hay varios casos en cada patrón de covariable distinto- el enfoque de subpoblación puede producir pruebas de bondad de ajuste válidas y residuos informativos, mientras que el enfoque a nivel de caso individual no puede.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X