5 votos

Cálculo de valores predichos de predictores categóricos en regresión logística

Contexto:

Estoy trabajando con un modelo logístico ordinal y tratando de interpretar/presentar los resultados. El modelo tiene dos continuo predictores de intereses, y una mezcla de continuos y categóricos controles. Yo estaba esperando a la gráfica de la predicción de la probabilidad de que la parte superior de resultado (de ser aceptado en una escuela) a través de múltiples niveles de mi IVs de interés.

Estoy usando R predecir la función() para generar predijo que las probabilidades. Para mi IVs de interés, elegí un rango de valores razonables (es decir, media +- 1 SD). Para la continua predictores, puedo usar sensible a los valores basales (generalmente 0), ya que son significa-centrado o estandarizadas.

Estoy tratando de averiguar cómo el enfoque de la categoría de los predictores. He explorado mis opciones por el uso de diferentes valores, y en la mayoría de los casos el resultado es sólo un pequeño cambio en la curva de salida. Para una variable sin embargo, las diferencias son enormes, así que tengo que encontrar una manera de presentar los resultados que son generales a los diferentes niveles de la variable.

Tal vez un ejemplo puede ayudar a aclarar. En estos dos gráficos, los dos IVs de interés se trazan en el eje de las x y de las 3 líneas. Cada gráfico se muestra el resultado dado un nivel único de mi problemática categórica de control, "la Admisión de la Escuela" (que tiene 4 niveles en total)

enter image description hereenter image description here

Otros gráficos y R sintaxis aquí si eres curioso

Pregunta:

  • ¿Cómo debo representar el modelo a través de todos los niveles de las variables categóricas en una sola gráfica?

Reflexiones Iniciales:

  • Agregado de los valores predichos a través de cada nivel de Admisión de la Escuela con algún tipo de promedio ponderado.
  • Este post sugiere el uso de la proporción de casos de cada tipo como la entrada para cada variable. Como si el 32% de los casos provenían de la Escuela 1, me gustaría utilizar .32*B-school1 en la fórmula de predicción. No sé cómo hacer que en R, ya que las variables son factores, pero si se trata de un enfoque apropiado, estoy seguro de que podría averiguar.

Lo siento por el nivel de detalle y gracias de antemano por cualquier ayuda.

5voto

DavLink Puntos 101

Mi pensamiento inicial habría sido para mostrar la probabilidad de aceptación como una función de la relación de GPA para cada una de las cuatro escuelas, el uso de algún tipo de enrejado de muestra. En este caso, facetting debe hacer el trabajo así como el número de escuelas no es tan grande. Esto es muy fácil de hacer con celosía (y ~ gpa | school) o ggplot2 (facet_grid(. ~ school)). De hecho, usted puede elegir el acondicionamiento de la variable que desea: esta puede ser la escuela, sino también de la situación en el pregrado de la institución. En el último caso, tendrás 4 curvas para cada parcela, y tres de la parcela de Prob(admitting) ~ GPA.

Ahora, si usted está buscando para una efectiva muestra de los efectos en GLM, recomiendo los efectos de paquete, de John Fox. Actualmente, se trabaja con la binomial y multinomial enlace, y ordinal modelo logístico. Marginar a través de otras variables que se maneja internamente, así que usted no tiene que molestarse con eso. Hay una gran cantidad de ilustraciones en la ayuda en línea, ver help(effect). Pero, para obtener una visión completa de efectos muestra en GLM, por favor consulte

  1. Fox (2003). El efecto se Muestra en R para Generalizada de Modelos Lineales. JSS 8(15).
  2. Fox y Andersen (2004). Efecto de la muestra para multinomial y proporcional de probabilidades de los modelos logit. ASA Metodología de la Conferencia, Aquí está el correspondiente JSS papel

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X