11 votos

¿Siempre es mejor extraer más factores cuando existen?

A diferencia del análisis de componentes principales, las soluciones de los modelos de análisis factorial no están necesariamente anidadas. Es decir, las cargas (por ejemplo) del primer factor no serán necesariamente idénticas cuando sólo se extrae el primer factor frente a cuando se extraen los dos primeros.

Con esto en mente, considere un caso en el que tiene un conjunto de variables manifiestas que están altamente correlacionadas y (por el conocimiento teórico de su contenido) deberían ser impulsadas por un único factor. Imagínese que el análisis factorial exploratorio (según la métrica que prefiera: análisis paralelo, diagrama de dispersión, valores propios >1, etc.) sugiere firmemente que hay $2$ factores: Un gran factor primario, y un pequeño factor secundario. Le interesa utilizar las variables manifiestas y la solución del factor para estimar (es decir, obtener las puntuaciones del factor) los valores de los participantes para el primer factor. En este escenario, ¿sería mejor:

  1. Ajustar un modelo de factores para extraer sólo $1$ y obtener las puntuaciones de los factores (etc.), o
  2. ajustar un modelo de factores para extraer ambos factores, obtener las puntuaciones de los factores, pero desechar / ignorar las puntuaciones del segundo factor?

Para cualquiera que sea la mejor práctica, ¿Por qué? ¿Hay alguna investigación sobre esta cuestión?

5voto

nobody Puntos 41

La cuestión a la que aludes es el tema de la "unidimensionalidad aproximada" a la hora de construir instrumentos de pruebas psicológicas, que se ha discutido bastante en la literatura en los años 80. La inspiración existía en el pasado porque los profesionales querían utilizar los modelos tradicionales de la teoría de respuesta al ítem (TRI) para sus ítems, y en aquel momento estos modelos de TRI se limitaban exclusivamente a medir rasgos unidimensionales. Por lo tanto, se esperaba que la multidimensionalidad de las pruebas fuera una molestia que (con suerte) podía evitarse o ignorarse. Esto es también lo que llevó a la creación de las técnicas de análisis paralelo en el análisis factorial (Drasgow y Parsons, 1983) y los métodos DETECT. Estos métodos fueron -y siguen siendo- útiles porque el análisis factorial lineal (al que usted se refiere) puede ser un proxy decente de información limitada para el análisis factorial de información completa para datos categóricos (que es lo que la TRI es en su núcleo), y en algunos casos (por ejemplo, cuando se utilizan correlaciones policóricas con un estimador ponderado, como WLSMV o DWLS) puede incluso ser asintóticamente equivalente para una pequeña selección de modelos ordinales de la TRI.

Las consecuencias de ignorar los rasgos/factores adicionales, aparte de ajustar obviamente el modelo equivocado a los datos (es decir, ignorar la información sobre el posible desajuste del modelo; aunque, por supuesto, puede ser trivial), es que las estimaciones de los rasgos en el factor dominante estarán sesgadas y, por tanto, serán menos eficientes. Estas conclusiones dependen, por supuesto, de las propiedades de los rasgos adicionales (por ejemplo, si están correlacionados con la dimensión primaria, si tienen cargas fuertes, cuántas cargas cruzadas hay, etc.), pero el tema general es que las estimaciones secundarias para obtener las puntuaciones de los rasgos primarios serán menos eficaces. Véase el informe técnico aquí para una comparación entre un modelo unidimensional mal ajustado y un modelo bifactorial; el informe técnico parece ser exactamente lo que busca.

Desde un punto de vista práctico, el uso de los criterios de información puede ser útil a la hora de seleccionar el modelo más óptimo, así como los estadísticos de ajuste del modelo en general (RMSEA, CFI, etc.) porque las consecuencias de ignorar la información multidimensional afectarán negativamente al ajuste global de los datos. Pero, por supuesto, el ajuste global del modelo es sólo un indicio de que se está utilizando un modelo inadecuado para los datos en cuestión; es totalmente posible que se utilicen formas funcionales inadecuadas, como la no linealidad o la falta de monotonicidad, por lo que siempre deben inspeccionarse también los elementos/variables respectivos.

Ver también :

Drasgow, F. y Parsons, C. K. (1983). Application of Unidimensional Item Response Theory Models to Multidimensional Data. Applied Psychological Measurement, 7 (2), 189-199.

Drasgow, F. y Lissak, R. I. (1983). Modified parallel analysis: Un procedimiento para examinar la dimensionalidad latente de las respuestas de los ítems con puntuación dicotómica. Journal of Applied Psychology, 68, 363-373.

Levent Kirisci, Tse-chi Hsu y Lifa Yu (2001). Robustness of Item Parameter Estimation Programs to Assumptions of Unidimensionality and Normality. Applied Psychological Measurement, 25 (2), 146-162.

1voto

JayD3e Puntos 141

Esta wikipedia enlace que han señalado otros anteriormente es útil (Ejemplo IV). En nuestro caso es en gran medida lo mismo, salvo que hay una potencia de $1/n$ en la parte superior en lugar de $1/2$ . Así que utilizando la misma integral de contorno "ojo de cerradura" podemos mostrar que la integral sobre el círculo exterior y el círculo interior desaparece, dejando sólo la parte $$[\int^{R}_{\epsilon}+\int^{\epsilon}_{R}]f$$ para preocuparse. Desde $f$ tiene una rama cortada en $[0,\infty]$ la primera integral se convierte en $$\int^{\epsilon}_{R}\frac{e^{|1/n\log[z]}e^{\frac{2\pi i}{n}}}{1+z^{2}}=\int^{\epsilon}_{R}\frac{z^{1/n}[\cos[\theta]+i\sin[\theta]]}{1+z^{2}}$$ Por lo tanto, la integral al sumarla debe ser $$(1-e^{\frac{2\pi i}{n}})\int^{\infty}_{0}fdx$$

Ahora tenemos $$\frac{z^{1/n}}{1+z^{2}}=\frac{1}{2i} \left( \frac{z^{1/n}}{z-i}-\frac{z^{1/n}}{z+i} \right)$$

Por lo tanto, sólo tenemos que evaluar el residuo en $i$ y $-i$ . Tomando el límite tenemos $$\lim_{z\rightarrow i}(z-i)\frac{z^{1/n}}{z-i}=i^{1/n}$$

Por lo tanto, la diferencia es $$\frac{1}{2i}(i^{1/n}-(-i)^{1/n})=\frac{1}{2i} \left(\exp\left(\frac{\pi i}{2n}\right) - \exp\left({\frac{3/2 \pi i}{n}} \right) \right)$$

Y el valor integral deseado es $$\frac{e^{\frac{\pi i}{2n}}-e^{\frac{3/2\pi i}{n}}}{2i\cdot(1-e^{\frac{2\pi i}{n}})}=\frac{1}{2i}\frac{x-x^{3}}{1-x^{4}}=\frac{x}{(1+x^{2})2i}=\frac{1}{2i\cdot(x^{4n-1}+x^{4n+1})}=\sec[{\frac{\pi}{2n}]}/4i,x=e^{\frac{\pi i}{2n}}$$ Eso sí $x^{4n}=1$ . Así, $x^{4n-1}+x$ debe ser real e igual a $2\cos[\frac{\pi}{2n}]$ .

Ahora multiplicamos el factor que falta de $2\pi i$ en el teorema del residuo obtenemos:

$$\int^{\infty}_{0}fdx=\frac{\pi}{2}\sec[\frac{\pi}{n}]$$

1voto

Maran Puntos 2283

¿Por qué no utilizar algo como lavaan o MPlus para ejecutar dos modelos (un modelo unidimensional y un modelo bidimensional alineado con los resultados de su EFA) y comparar los índices de ajuste relativos y absolutos de los diferentes modelos (es decir, criterios de información - AIC y BIC, RMSEA, SRMR, CFI/TLI)? Tenga en cuenta que si sigue este camino no querrá utilizar el ACP para el AFE, sino los factores principales. Alguien realmente preocupado por la medición integraría el AFC en un modelo de ecuaciones estructurales completo.

Edición: El enfoque que te pido que consideres es más bien para averiguar cuántas variables latentes explican realmente el conjunto de ítems. Si quieres obtener la mejor estimación del factor mayor, yo votaría por utilizar las puntuaciones de los factores del modelo CFA con mejor ajuste, sea cual sea.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X