¿Cuáles son las suposiciones correctas de la Regresión Logística Multinomial? ¿Y cuáles son las mejores pruebas para satisfacer estos supuestos utilizando el SPSS 18?
Respuestas
¿Demasiados anuncios?La suposición clave en el MNL es que los errores se distribuyen de forma independiente e idéntica con una distribución de valor extremo de Gumbel. El problema con pruebas esta suposición es que se hace a priori . En la regresión estándar se ajusta la curva de mínimos cuadrados, y se mide el error residual. En un modelo logit, asumes que el error ya está en la medición del punto, y calculas una función de probabilidad a partir de esa suposición.
Un supuesto importante es que la muestra sea exógena. Si se basa en la elección, hay correcciones que deben emplearse.
En cuanto a las suposiciones sobre el propio modelo, Tren describe tres:
- Variación de gustos sistemática y no aleatoria.
- Sustitución proporcional entre las alternativas (una consecuencia de la propiedad del AII).
- No hay correlación en serie en el término de error (datos de panel).
La primera suposición que en su mayoría sólo tiene que defender en el contexto de su problema. La tercera es en gran medida la misma, porque los términos de error son puramente aleatorios.
Sin embargo, la segunda es comprobable hasta cierto punto. Si se especifica un modelo logit anidado, y resulta que el patrón de sustitución entre nidos es totalmente flexible ( $ \lambda = 1$ ) entonces podrías haber usado el modelo MNL, y la suposición del IIA es válida. Pero recuerda que la función de log-probabilidad para el modelo logit anidado tiene máximos locales, así que debes asegurarte de que obtienes $ \lambda =1$ consistentemente.
En cuanto a hacer algo de esto en SPSS, no puedo ayudarte más que sugerirte que uses el mlogit
paquete en R en su lugar. Lo siento.
Algo relacionado con la hipótesis ergódica mencionada en otra respuesta es la suposición de que las no linealidades genéricas conducen a la termalización y la equiparación de la energía. Para ser más precisos, comience con un sistema Hamiltoniano lineal, completamente integrable y de dimensiones finitas (digamos sistema desacoplado de muchos osciladores armónicos). El sistema tiene modos de excitación independientes que, si los datos iniciales se establecen como uno de los modos, la evolución se mantendrá en el modo. La suposición de la física es que al añadir un acoplamiento no lineal, esto permitiría que los modos interactuaran y, a largo plazo, el sistema se asentará en un estado termalizado en el que cada modo contribuye con la misma cantidad de energía total.
Esto, por supuesto, ahora se sabe que es falso, en vista del teorema KAM.
Pero un desarrollo secundario interesante es que Fermi, Pasta y Ulam estaban convencidos de que la termalización debía tener lugar (de hecho Fermi había publicado una "prueba" a tal efecto), por lo que ejecutaron una simulación por ordenador (hace tiempo, en Los Álamos, en uno de los primeros ordenadores construidos) para una cuerda vibrante, teniendo en cuenta los efectos de segundo orden (los efectos de primer orden son sólo la ecuación de onda lineal, que en la aproximación de la red finita es completamente integrable ODE), y trataron de calcular numéricamente la velocidad a la que se producirá la termalización. Lo que observaron, sin embargo, es que el sistema es cuasiperiódico. Este descubrimiento dio origen al estudio moderno de los solitones. Vea un relato de esto en el artículo de Palais en el Boletín http://dx.doi.org/10.1090/S0273-0979-97-00732-5
El gmacfarlane ha sido muy claro. Pero para ser más precisos, y asumo que usted realiza un análisis de sección transversal, el supuesto central es el IIA (independencia de alternativas irrelevantes). No se puede forzar que los datos encajen en la suposición del IIA, hay que probarlos y esperar que se satisfagan. Spss no podría manejar la prueba hasta el 2010 con seguridad. R por supuesto lo hace, pero podría ser más fácil para usted migrar a stata e implementar las pruebas del IIA proporcionadas por los comandos de postestimación de mlogit.
Si el AII no se mantiene, las alternativas razonables son el logit multinomial mixto o el logit anidado. El primero puede ser estimado dentro del gllamm, el segundo con el comando nlogit mucho más parsimonioso.