6 votos

Regresión Ordinal: proporcional probabilidades de asunción

Estoy analizando los resultados de la encuesta con la mayoría de las respuestas en la forma de escalas Likert. Muchas de estas escalas tienen muy pocos o 0 respuestas en la parte inferior de las categorías. Como se puede imaginar, esto está dando lugar a algunas complicaciones cuando intento ejecutar mis modelos. Todavía estoy obteniendo resultados alentadores, pero quiere estar seguro de que mi información es válida antes de la presentación de informes. A continuación se describe una situación en la que he estado trabajando durante el último par de días:

Estoy utilizando el programa estadístico SPSS para ejecutar una regresión ordinal con dos predictores. En este caso, los predictores de ellos son en realidad las respuestas en una escala de Likert (sino que se introduce en el modelo como variables nominales). Mi DV es, por supuesto, también en una escala ordinal. Mis dos predictores cada uno tiene cinco categorías (niveles de la escala). Mi variable dependiente también tiene 5 niveles. Al igual que con mi predictor de las variables, la variable dependiente tiene muy pocas observaciones en la parte inferior de las categorías. De hecho, cuando ejecuto la regresión, se dice que el 47,5% de las células tienen frecuencias de 0. Sin embargo, todo mi coeficientes son significativos, el general de ajuste del modelo (-2 log likelihood es significativa a .000, y los cocientes de probabilidad (exponentiated forma de mi coeficientes) todos parecen razonables. El modelo se parece a una buena parte de estos celdas con frecuencias de 0.

Mi prueba está fallando la parte proporcional de probabilidades de asunción, que dice que los coeficientes para cada predictor de la categoría debe ser igual en todos los DV niveles. Sé que esto basado en los resultados de la Prueba de líneas Paralelas, que SPSS informes como parte de la regresión ordinal de salida. Así, en la recomendación de un artículo que encontré en internet, me he hecho dos cosas para explorar más a fondo. En primer lugar, me he quedado separado de logística regresiones con nuevas variables dependientes, cada uno representando a un caso en mi original DV - en otras palabras, se indican Y si es menor que cada uno de mis originales DV categorías (excepto el inferior). Así que mi nueva DV son de nivel 2 o superior vs no; nivel 3 o superior vs no; etc.. Estos no producen relaciones significativas para la mayoría de los IV-DV combinaciones (las células). La idea es comparar las probabilidades de ocurrencia a través de los diferentes puntos de corte para ver si están bastante constante. En mi caso, ya que pocos son importantes, no lo son.

La segunda cosa que he hecho es estimado por separado ordinal regresiones utilizando mi original de la variable dependiente - hice un modelo para cada categoría en mi predictores, codificado como maniquíes. Así, en 10 modelos diferentes (2 variables predictoras con 5 categorías, cada una), mi único predictor sería: 1 para el nivel 2 y un 0 para todos los otros niveles; o un 1 para el nivel 3 y un 0 para todos los otros niveles; etc.. Para la mayoría de estas categorías, las líneas paralelas es un error (es decir, el valor null que el proporcional de probabilidades suposición se confirmó es demostrar la verdad – una buena cosa). Sin embargo, en un par de estas categorías, no tengo observaciones (nadie respondió Muy Pobres o Pobres en uno de mis predictor escalas Likert). Por lo tanto no puedo conseguir una línea paralela P-valor para estas categorías.

Mi pregunta tiene dos partes.

Una de ellas es si es la parte inferior de los niveles de las variables predictoras que están causando las líneas paralelas de la prueba a fallar... y si la razón es que no existen observaciones en estas categorías, si todavía puedo utilizar el general impares del ratios de mi modelo completo. Creo que esto no debería ser un problema, ya que estas categorías de forma automática caída de la modelo.

La segunda pregunta es si, en cambio, podría ser la baja/0 frecuencias en la parte inferior de mi DV que está causando las líneas paralelas de la prueba a fallar. Yo no creo que se basa en el hecho de que la prueba se pasa para todos predictor de la variable categorías que tienen observaciones en ellos. He tratado de combinar la parte inferior de las categorías de mi DV, y esto disminuye el % de células con frecuencias de 0, pero no elimina totalmente el problema.

Muchas gracias por tomar el tiempo para considerar mi pregunta. Yo estaría tremendamente agradecido por cualquier orientación que usted puede proporcionar.

3voto

alexs77 Puntos 36

En primer lugar, son las dos variables independientes se ajusta como factores o numéricamente respuestas codificadas y hay un término de interacción para los dos? La razón que pido es porque la prueba de probabilidades proporcionales crece muy sensible con pequeñas cuentas de la célula. Por esta razón, a menudo me encuentro es justificable para ajustar las variables de entrada como de su forma ordinal valores codificados (1: baja, 2: regular-a-pobres, etc.). Hacerlo permite que la información sea prestado a través de grupos, la proporcionalidad se evalúa de manera que un asociado de la diferencia en las probabilidades de una forma más favorable respuesta de la comparación de unidades diferentes por 1 en la quiniela son consistentes con las probabilidades de una aún más la respuesta favorable (el áspero y rebuscada interpretación de la prueba de probabilidades proporcionales).

Si tu numérico codificación todavía no se puede dar validez a la proporcionalidad, es posible obtener consistente acumulativa de los odds ratios estimados por el colapso de categorías adyacentes como las dos parte inferior del cuadro de respuestas.

En tercer lugar, otro powered prueba de asociación entre una variable ordinal de respuesta y dos ordinal factores, es una llanura de edad modelo de regresión lineal. Utilizando errores estándar robustos, consigue válido intervalos de confianza a pesar de la distribución de los errores. Esto tiende a ser menos potente que categóricas métodos, pero con menos dificultades debido a cero el recuento de células.

Por último, como un comentario, robusto errores estándar permiten consistente estimación de la media de la modelo en la mayoría de las circunstancias. No estoy seguro de si estas se implementan en el programa SPSS, pero R y SAS uso de estos con frecuencia. Como con el supuesto de proporcionalidad de riesgos en el modelo de Cox, cuando este "modelo basado en la suposición de verificación" no, esto no significa que los resultados del modelo son totalmente inválida, es sólo que las estimaciones del efecto son "promedio" sobre sus incoherentes proporcionalidad. Por ejemplo, si probabilidades proporcionales modelo tiene un número excesivo de los encuestados dando superior de la caja de respuestas, y un predictor muestra una gran asociación para la parte superior del cuadro de respuesta, sino más pequeños de la asociación para otros acumulativa de medidas, a continuación, usted encontrará que el acumulado de las odds ratio es una combinación ponderada de los diferentes umbrales concretos de los odds ratios, con un mayor peso colocado sobre la parte superior del cuadro de O.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X