13 votos

Comparando los coeficientes de regresión logística entre modelos?

He desarrollado un modelo logit para ser aplicado a los seis conjuntos diferentes de datos de corte transversal. Lo que estoy tratando de descubrir es si hay cambios en el sustantivo efecto de una variable independiente (IV) en la variable dependiente (VD) controlando por el resto de explicaciones en diferentes momentos y a través del tiempo.

Mis preguntas son:

  • ¿Cómo puedo evaluar el aumento / disminución de tamaño en la asociación entre la IV y DV?
  • Puedo simplemente mirar las diferentes magnitudes (tamaños) de los coeficientes a través de los modelos o tengo que ir a través de algún otro proceso?
  • Si tengo que hacer algo más, ¿qué es y puede ser hecho/como puedo hacerlo en SPSS?

    También, dentro de un modelo único,

  • Puedo comparar el tamaño relativo de las variables independientes basados en unstandardised puntuaciones si todos están codificados 0-1 o necesito convertir las puntuaciones estandarizadas?
  • Hay problemas con puntuaciones estandarizadas?

15voto

Plan B Puntos 2500

Me va a centrar principalmente en sus primeras tres preguntas. Las respuestas cortas son: (1) usted necesita para comparar el efecto de la IV en el DV para cada período de tiempo, pero (2) sólo la comparación de las magnitudes puede conducir a conclusiones equivocadas, y (3) hay muchas formas de hacerlo, pero no hay consenso sobre cuál es la correcta.

A continuación describo por qué simplemente no se puede comparar el coeficiente de magnitudes y punto de que algunas de las soluciones que se pensaba hasta ahora.

Según Allison (1999), a diferencia de la OPERACIÓN, coeficientes de regresión logística se ven afectados por la heterogeneidad no observada, aun cuando dicha heterogeneidad no está relacionado con la variable de interés.

Cuando el ajuste de una regresión logística como:

(1)$$ \ln\bigg(\frac{1}{1-p_i}\bigg) = \beta_{0} + \beta_{1}x_{1i} $$

You are in fact fitting an equation predicting the value of a latent variable $y^*$ that represents the underlying propensity of each observation to assume the value $1$ in the binary dependent variable, what happens if $y^*$ is above a certain threshold. The equation for that is (Williams, 2009):

(2)$$ y^* =\alpha_{0} + \alpha_{1}x_{1} + \sigma \varepsilon $$

The term $\varepsilon$ is assumed to be independent from the other terms and to follow a logistic distribution – or a normal distribution in the case of probit and a log-logistic distribution in case of complementary log-log and a cauchy distribution in the case of cauchit.

According to Williams (2009), the $\alpha$ coefficients in equation 2 are related to the $\beta$ coefficients in equation 1 through:

(3)$$ \beta_{j} = \frac{\alpha_{j}}{\sigma}\;\;j=1,...,J. $$

In equations 2 and 3, $\sigma$ is the scaling factor of the unobserved variation, and we can see that the size of the estimated $\beta$ coefficients depends on $\sigma$, que no es observado. Basado en eso, Allison (1999), Williams (2009), y el estado de Ánimo (2009), entre otros, afirman que no se puede ingenuamente comparar los coeficientes entre los modelos logísticos estimada para los distintos grupos, países o períodos.

Esto es debido a que las comparaciones pueden dar a conclusiones erróneas si no se ve la variación de la diferencia entre los grupos, países o períodos. Ambas comparaciones utilizando diferentes modelos y el uso de los términos de interacción dentro del mismo modelo que sufren de este problema. Además logit, esto se aplica también a la de sus primos probit, obstrucciones de registro, cauchit y, por extensión, a tiempo discreto modelos de riesgo estimado de uso de estas funciones de enlace. Ordenó a los modelos logit también son afectados por ella.

Williams (2009) argumenta que la solución es el modelo de la no observados de la variación a través de un heterogéneo modelo de elección (un.k.un., un modelo a escala), y proporciona una Stata agregar en el llamado oglm (Williams, 2010). En R, la heterogeneidad de modelos de elección puede estar en forma con el hetprob() función de la glmx paquete, que está disponible a través de RForge, pero no a través de CRAN. Ambos programas son muy fáciles de usar. Por último, Williams (2009) menciona SPSS s PLUM rutina para el montaje de estos modelos, pero nunca lo he usado y no puedo comentar en lo fácil que es de usar.

Sin embargo, hay al menos un documento de trabajo por ahí mostrando que las comparaciones utilizando heterogéneos modelos de elección puede ser aún más sesgada si la varianza de la ecuación está mal especificada o hay un error de medición.

El estado de ánimo (2010) enumera otras soluciones que no implican la modelización de la varianza, pero el uso de las comparaciones de las predicciones de probabilidad de los cambios.

Al parecer es un problema que no está resuelto y a menudo veo ponencias en conferencias de mi campo (Sociología) viene con diferentes soluciones para ello. Yo le aconsejo que mire lo que la gente en su campo y, a continuación, decidir cómo tratar con él.

Referencias

4voto

Likso Puntos 68

Guilherme es el dinero aquí. Mientras que las otras respuestas son útiles, por favor, tenga en cuenta que la regresión logística (y todos los de regresión no lineal como la de Poisson, para que la materia) son fundamentalmente diferentes de regresión lineal. Puede haber serios problemas con el logit factor de escala cuando se ejecuta el mismo análisis en seis diferentes conjuntos de datos y, a continuación, ejecuta lo que el análisis de los datos combinados. Los cambios en los coeficientes puede no tener nada que ver con diferencias significativas (aunque estadísticamente significativa o sustancialmente importante). Que podría tener todo lo relacionado con la heterogeneidad no observada a través de las muestras. Usted absolutamente tiene que probar que. Muchos (si no la mayoría) de los investigadores en el ámbito social y política de los campos de la ciencia ignorar esto. Guilherme da a los artículos seminales sobre esto que recomiendo a todo el mundo mira. Peters sugerencias de orden práctico, sino simplemente de codificación de una variable ficticia para la muestra los datos provienen de no abordar esta heterogeneidad en el factor de escala. Usted puede hacer que en la regresión lineal y la heterogeneidad no debería afectar a sus coeficientes, pero aquí se puede.

Otro aspecto para el efecto de la heterogeneidad no observada única para logit vs regresión lineal, es el efecto de diferentes regresores en cada conjunto de datos. Si usted no tiene las mismas variables, o si son medidos de manera diferente, usted tiene una forma de sesgo de variable omitida. A diferencia de la regresión lineal, una variable omitida ortogonal a su clave regresor todavía puede sesgo de su estimación. Como Cramer pone:

Incluso con regresores ortogonales, entonces, variables omitidas deprimir $\hat β$ a cero, relativamente a su valor en la ecuación completa. En otras palabras, el $\hat β$ discreto de los modelos varían inversamente con el grado de heterogeneidad no observada. La consecuencia práctica es que las estimaciones de muestras que difieren a este respecto no son directamente comparables. (http://dare.uva.nl/document/2/96199)

Cramer también señala pesar de que los coeficientes estimados están sesgados a la baja cuando la omisión de una variable, las derivadas parciales no son. Esto es bastante complicado y usted debe leer el artículo para una más lúcida explicación de la general, el punto es, no exclusivamente mirar el log-odds o probabilidades de ocurrencia. Considere la posibilidad de probabilidades pronosticadas y sus derivados; ver los márgenes de comandos de Stata para obtener más detalles. JD Tiempo tiene un papel que va en detalle aquí.

Por último, hay una serie de documentos que usted puede buscar en Google para que discutir los términos de interacción en los modelos logit. A mi entender ha sido que tomar el logit coeficiente en una interacción como una guía, pero no definitivo, especialmente si usted prefiere ver los coeficientes como exponentiated de los odds ratios. Mirando probabilidades pronosticadas y media efecto marginal es mejor (de nuevo, buscar documentación en Stata margen de comandos para logit, incluso si se utiliza el programa SPSS esto todavía ser útil).

No estoy lo suficientemente familiarizado con el programa SPSS para saber cómo ese paquete puede lidiar con estos temas, pero voy a decir esto: cuando usted consigue en la más profunda de las cuestiones estadísticas como esta, es una indicación de que es el momento para que usted se mueva de una forma más flexible, sofisticado paquete como Stata o R.

3voto

Zizzencs Puntos 1358

¿Hay cambios en los conjuntos de datos? Puedo responder a eso sin ver los datos! Sí. Hay. ¿De qué tamaño son? Esa es la clave. Para mí, la manera de ver y mirar. Usted tendrá la odds ratio para cada variable independiente para cada conjunto de datos son diferentes en maneras en que la gente le parezca interesante? Ahora, es cierto que cada uno tiene un error estándar y así sucesivamente, y probablemente hay maneras para ver si son estadísticamente significativamente diferentes unos de otros, pero es que la pregunta realmente interesante? Si es, entonces, una manera de probar fácilmente con el software sería la de combinar todos los estudios, e incluyen "estudio" como otra variable independiente. Entonces, usted puede incluso probar las interacciones, si quería. Si usted desea hacer esto depende de tu cuestiones sustantivas.

En cuanto a la comparación de variables dentro de un modelo, el principal problema con los puntajes estandarizados es que están estandarizados en el particular de la muestra. Así, las estimaciones de los parámetros y así sucesivamente, a continuación, en términos de desviaciones estándar de las variables en la muestra en particular. Incluso si la muestra es verdaderamente una muestra aleatoria de una población, tendrá (ligeramente) diferentes desviaciones estándar de otras muestras aleatorias. Esto hace las cosas más confusas.

El otro problema es lo que la cuestión de la "importancia relativa" significa. Si su IVs son cosas que están bien entendido, usted puede comparar las Rup en los rangos que significar algo.

1voto

pauly Puntos 932

Otra herramienta que puede ser útil es la standardarized coeficiente de regresión, o al menos un áspero y listo pseudo-versión. Usted puede obtener uno de esos versión al multiplicar el coeficiente obtenido por la desviación estándar de la predictor. (Hay otras versiones y algún que otro debate sobre la mejor, por ejemplo, ver Menard de 2002, se Aplicó un Análisis de Regresión Logística (Google libros)). Esto le dará una forma de evaluar la intensidad del efecto entre los estudios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X