6 votos

Codificación de variables categóricas para la regresión

No estoy seguro de cuál es la mejor manera de codificar mi variable de predicción categórica para utilizarla en una regresión jerárquica con el fin de probar mi hipótesis específica. Esta variable categórica tiene 3 niveles que representan 3 grupos. Quiero comparar el grupo 1 con el grupo 2, el grupo 1 con el grupo 3 y el grupo 2 con el grupo 3. Sé que para la codificación de variables ficticias debo crear k-1 variables, así que 2 variables ficticias en mi caso y codificar estas variables con 0s y 1s mientras se elige un nivel de la variable categórica para que sea una categoría de referencia.

Sin embargo, no estoy seguro de que ésta sea la mejor manera de realizar las comparaciones que deseo, ya que parece que sólo podría comparar cada grupo con la categoría de referencia, ¿estoy en lo cierto? Así que si el grupo 3 fuera la categoría de referencia, podría comparar el grupo 1 con el grupo 3 y el grupo 2 con el grupo 3, pero no podría comparar el grupo 1 con el grupo 2. ¿Qué método alternativo de codificación debería utilizar para realizar estas comparaciones? Mi modelo de regresión también contendrá variables continuas. Soy estudiante de psicología y la estadística no es mi punto fuerte, las respuestas sencillas serían las mejores para mí. Utilizo SPSS. Gracias.

6voto

user2735206 Puntos 51

Este es un ejemplo en el que se utiliza el employee data.sav datos, que viene con la instalación estándar. Supongamos que salary es la variable dependiente, la categoría laboral, jobcat es la variable independiente categórica, y el salario inicial, salbegin es la variable independiente continua. Utilizando el GLM, puede realizar comparaciones por pares entre cada par de categorías de trabajo. Los pasos son los siguientes:

  1. Con el conjunto de datos abierto, vaya a Analizar > Modelo lineal general > Univariante. enter image description here

  2. Coloca la variable dependiente y la variable independiente en las ranuras correctas. Las variables independientes categóricas van a "Factor(es) fijo(s)" y las continuas van a "Covariable(s)". No se preocupe por los Factores Aleatorios. Cuando esté todo listo, haga clic en el botón "Modelo". enter image description here

  3. En el panel Modelo, resalte las dos variables independientes, cambie el término de construcción a "Efectos principales", y luego haga clic en el botón de la flecha (indicado por el círculo rojo) para acercar las dos variables. Cuando todo esté listo, haga clic en "Continuar". enter image description here

  4. Ahora, haz clic en el botón "Opción". enter image description here

  5. En el panel de opciones, haga lo siguiente: 1) Resalte jobcat 2) Llévelo a la derecha haciendo clic en el botón de la flecha, 3) Marque "Comparar los efectos principales", 4) Especifique el ajuste que le gustaría hacer para las comparaciones múltiples por pares. Yo lo dejé como LSD, que no ajusta para pruebas múltiples, 5) Marque "Estimaciones de parámetros" para que también obtenga los coeficientes de regresión. Cuando todo esté hecho, haga clic en Continuar y luego en Aceptar para enviar la prueba. enter image description here

  6. Aquí está la tabla de coeficientes de regresión: enter image description here

  7. Desplázate un poco hacia abajo y encontrarás la tabla de comparaciones por pares: enter image description here

2voto

Sean Hanley Puntos 2428

Como quiere comparar todos los grupos entre sí, las pruebas no serán ortogonales, aunque sean a priori. Por lo tanto, debe utilizar una prueba que tenga en cuenta este aspecto. Diferencias honestamente significativas de Tukey (HSD) lo hará, y es conocido por mucha gente. No hay que preocuparse por el tipo de codificación utilizada. En primer lugar, como Notas de @Scortchi En primer lugar, puede realizar esta prueba con cualquier método de codificación habitual (nivel de referencia, efecto, etc.). En segundo lugar, el SPSS probablemente se encargará de la codificación por usted.

Hace mucho tiempo que no utilizo el SPSS, pero deduzco que utilizaría el Análisis univariante GLM ya que tiene variables continuas y categóricas. La documentación de SPSS para las comparaciones post-hoc después de ejecutar un GLM se puede encontrar aquí .

1voto

Eero Puntos 1612

El artículo de Wikipedia sobre análisis post hoc enumera varias pruebas/opciones para comparar grupos después de que se haya encontrado un factor significativo. Ya no conozco bien el SPSS, pero espero que implemente una o más de las pruebas de esa lista. Puede buscar esos términos en la documentación de SPSS y eso debería indicarle cómo especificar que quiere esas comparaciones.

Al buscar en Google "SPSS post hoc" aparecen también varios enlaces prometedores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X