Realmente soy un novato en las estadísticas y lo que realmente necesitas un poco de ayuda! Me encuentro aquí, o en cualquiera de los libros de la respuesta a mi problema. Si me lo perdí, lo siento por eso y puedes compartir el vínculo conmigo, por favor?
Aquí, se describe brevemente el fondo de mi estudio:
He recogido un conjunto de 20 variables independientes (ficticio y numérico), vamos a llamar a, B, C...T, que son diferentes de las posibles razones de enfermarse. Tengo una población de 60 familias, que durante un año sufrió de la enfermedad 1, la enfermedad, la 2 y la enfermedad 3. Tengo tres variables dependientes (S1, S2, S3) contando el porcentaje de días en que los diferentes miembros de cada familia se enferma durante un año.
Mis 20 variables independientes se puede explicar por menos factores (dieta, el entorno de vida, etc.). Así que, he hecho un Análisis de Componentes Principales (girado factores varimax, etc), que me dio 5 factores. Todo funciona perfectamente hasta ahora, incluso si algunas de las variables de cargas en los diferentes factores al mismo tiempo, su mayor carga (.6 y superior) es identificar claramente en una variable en particular. Así que tengo:
Factor 1 = B, D, E, F, K, N, O y S El Factor 2 = C, G y T Factor 3 = H, J y P Factor 4 = a, I y M Factor 5 = L, Q y R
B, H, M, O, P, S y T de carga en más de un factor, pero no de una manera mucho menos significativa. El total de las varianzas explicadas es del 63%, tengo buenas autovalores (respectivamente: 5.1, 2.1, 2.0, 1.9 y 1.6)
A partir de este CAP, me salvó el factor de puntuaciones para la regresión. (En SPSS, he utilizado durante mi Facto Análisis: los resultados --" guardar como variables --" Regresión) entiendo que la regresión del factor de resultados en SPSS están estandarizados, con una media = 0 y Desviación Std = 1. Una puntuación de 0 en un factor, por tanto, significa que esta variable clasificaciones de la importancia de los atributos relevantes es cercano al promedio de mi muestra. No puedo usarlos directamente en mi regresión.
Aquí es donde necesito ayuda...
Me han dicho que multiplicar el factor de carga con mis variables originales, y luego sumarlos para obtener mi nueva variable a utilizar en la regresión. Así que lo hice de la siguiente cosa en spss:
*[(factor scores 1) x B] + [(factor scores 1) x D] + [(factor scores 1) x E] + [(factor scores 1) x F] + [(factor scores 1) x K] + [(factor scores 1) x N] + [(factor scores 1) x O] + [(factor scores 1) x S] = N-Var1* (new variable 1)
*[(factor scores 2) x C] + [(factor scores 2) x G] + [(factor scores 2) x T] = N-Var2
[(factor scores 3) x H] + [(factor scores 3) x J] + [(factor scores 3) x P] = N-Var3
[(factor scores 4) x A] + [(factor scores 4) x I] + [(factor scores 4) x M] = N-Var4
[(factor scores 5) x L] + [(factor scores 5) x Q] + [(factor scores 5) x R] = N-Var5*
Entonces, he utilizado la N-Var1, N-Var2, N-Var3, N-Var4 y N-Var5 como variables independientes para explicar el modelo para el grado de enfermedad de S1 en una primera regresión, a continuación, haga diferentes de regresión para S2 y S3, sigue utilizando las mismas variables independientes para explicar el modelo de (N-Var1,...). Yo quiero medir el peor de los factores (= mayor influencia sobre la dependiente). El que hace que mi población más fácilmente enfermos con S1 (el peor) y fomentar el desarrollo de S2 y S3 (estoy esperando a ver una fuerte influencia en S1 de muchos factores). Sin embargo, cuando mi PCA está funcionando perfectamente (estoy seguro de ello), los resultados de la regresión no tiene sentido en absoluto (también estoy seguro de ello).
Qué significa hice algo mal cuando me transformó mi el factor de puntuación? O simplemente que ningún modelo puede funcionar para explicar S1, S2 y S3?