10 votos

¿Cómo interpretar correctamente un análisis paralelo en el análisis factorial exploratorio?

Algunos trabajos científicos informan de resultados de análisis paralelos de análisis de factores de eje principal de una manera incompatible con mi comprensión de la metodología. ¿Qué me estoy perdiendo? ¿Estoy equivocado o ellos.

Ejemplo:

  • Data: Se ha observado el rendimiento de 200 humanos individuales en 10 tareas. Para cada individuo y cada tarea, uno tiene una puntuación de rendimiento. La cuestión ahora es determinar cuántos factores son la causa del rendimiento en las 10 tareas.
  • Método: análisis paralelo para determinar el número de factores a retener en un análisis de factores de eje principal.
  • Ejemplo de resultado comunicado: "El análisis paralelo sugiere que sólo deben conservarse los factores con un valor propio de 2,21 o más".

Eso es una tontería, ¿no?

A partir del documento original de Horn (1965) y de tutoriales como Hayton y otros (2004) entiendo que el análisis paralelo es una adaptación del criterio de Kaiser (valor propio > 1) basado en datos aleatorios. Sin embargo, la adaptación no consiste en sustituir el valor de corte 1 por otro número fijo, sino un valor de corte individual para cada factor (y dependiente del tamaño del conjunto de datos, es decir, 200 veces 10 puntuaciones). Si se observan los ejemplos de Horn (1965) y Hayton y otros (2004) y el resultado de las funciones R fa.paralelo en el psicológico paquete y paralelo en el nFactores veo que el análisis paralelo produce una curva de pendiente descendente en el gráfico de Scree para compararla con los valores propios de los datos reales. Más bien "Retener el primer factor si su valor propio es > 2,21; adicionalmente retener el segundo si su valor propio es > 1,65; ".

¿Existe algún entorno sensato, alguna escuela de pensamiento o alguna metodología que haga que "el análisis paralelo sugiere que sólo los factores con un valor propio de 2,21 o más deben ser retenidos" sean correctos?

Referencias:

Hayton, J.C., Allen, D.G., Scarpello, V. (2004). Factor retention decisions in exploratory factor analysis: a tutorial on parallel analysis. Organizational Research Methods, 7(2):191-205.

Horn, J.L. (1965). Una justificación y prueba del número de factores en el análisis de factores. Psychometrika, 30(2):179-185.

1 votos

Por cierto, el requisito de Hayton et al. de que la forma de distribución de los datos no correlacionados utilizados para generar valores propios medios para estimar el "sesgo de muestreo" fue examinado críticamente y rechazado en Dinno, A. (2009). Exploring the Sensitivity of Horn's Parallel Analysis to the Distributional Form of Simulated Data. Investigación conductual multivariante , 44(3):362-388.

1 votos

También, por cierto, ver mi paquete de análisis paralelo paran para R (en CRAN) y para Stata (dentro de Stata tipo findit paran).

10voto

GenericTypeTea Puntos 27689

Hay dos formas equivalentes de expresar el criterio de análisis paralelo. Pero primero tengo que ocuparme de un malentendido que prevalece en la literatura.

El malentendido
La llamada regla de Kaiser (en realidad a Kaiser no le gustaba la regla si se lee su artículo de 1960) los valores propios mayores que uno se conservan para el análisis de componentes principales . Utilizando la llamada regla de Kaiser los valores propios mayores que cero se conservan para el análisis factorial principal/análisis factorial común . Esta confusión ha surgido a lo largo de los años porque varios autores han sido descuidados al utilizar la etiqueta "análisis factorial" para describir el "análisis de componentes principales", cuando no son lo mismo.

Ver Aclaración de la aplicación del análisis paralelo de Horn al análisis de componentes principales frente al análisis factorial para las matemáticas de la misma si necesitas convencerte de este punto.

Análisis paralelo Criterios de retención
Para el análisis de componentes principales basado en la matriz de correlación de $p$ número de variables, tienes varias cantidades. En primer lugar, tiene los valores propios observados de una eigendecomposición de la matriz de correlación de sus datos, $\lambda_{1}, \dots, \lambda_{p}$ . En segundo lugar, se tienen los valores propios medios de las eigendecomposiciones de las matrices de correlación de "un gran número" de conjuntos de datos aleatorios (no correlacionados) del mismo $n$ y $p$ como propio, $\bar{\lambda}^{\text{r}}_{1},\dots,\bar{\lambda}^{\text{r}}_{p}$ .

Horn también enmarca sus ejemplos en términos de "sesgo de muestreo" y estima este sesgo para el $q^{\text{th}}$ valor propio (para el análisis de componentes principales) como $\varepsilon_{q} = \bar{\lambda}^{\text{r}}_{q} - 1$ . Este sesgo puede utilizarse para ajustar los valores propios observados: $\lambda^{\text{adj}}_{q} = \lambda_{q} - \varepsilon_{q}$

Dadas estas cantidades se puede expresar el criterio de retención para el $q^{\text{th}}$ valor propio observado de un análisis paralelo de componentes principales de dos maneras matemáticamente equivalentes:

$\lambda^{\text{adj}}_{q} \left\{\begin{array}{cc} > 1 & \text{Retain.} \\\\ \le 1 & \text{Not retain.} \end{array}\right.$

$\lambda_{q} \left\{\begin{array}{cc} > \bar{\lambda}^{\text{r}}_{q} & \text{Retain.} \\\\ \le \bar{\lambda}^{\text{r}}_{q} & \text{Not retain.} \end{array}\right.$

¿Y para el análisis factorial principal/el análisis factorial común? Aquí tenemos que tener en cuenta que el sesgo es el valor propio medio correspondiente: $\varepsilon_{q} = \bar{\lambda}^{\text{r}}_{q} - 0 = \bar{\lambda}^{\text{r}}_{q}$ (menos cero porque la regla de Kaiser para la eigendecomposición de la matriz de correlación con la diagonal sustituida por las comunalidades es conservar los valores propios mayores que cero). Por lo tanto, aquí $\lambda^{\text{adj}}_{q} = \lambda_{q} - \bar{\lambda}^{\text{r}}_{q}$ .

Por lo tanto, los criterios de retención para el análisis factorial principal/el análisis factorial común deberían expresarse como

$\lambda^{\text{adj}}_{q} \left\{\begin{array}{cc} > 0 & \text{Retain.} \\\\ \le 0 & \text{Not retain.} \end{array}\right.$

$\lambda_{q} \left\{\begin{array}{cc} > \bar{\lambda}^{\text{r}}_{q} & \text{Retain.} \\\\ \le \bar{\lambda}^{\text{r}}_{q} & \text{Not retain.} \end{array}\right.$

Obsérvese que la segunda forma de expresar el criterio de retención es coherente tanto para el análisis de componentes principales como para el análisis factorial común (es decir, porque la definición de $\lambda^{\text{adj}}_{q}$ cambia en función de los componentes/factores, pero la segunda forma de criterio de retención no se expresa en términos de $\lambda^{\text{adj}}_{q}$ ).

una cosa más...
Tanto el análisis de componentes principales como el análisis factorial principal/el análisis factorial común pueden basarse en el matriz de covarianza en lugar de la matriz de correlación. Dado que esto cambia las suposiciones/definiciones sobre la varianza total y común, sólo deberían utilizarse las segundas formas del criterio de retención cuando se basa el análisis en la matriz de covarianza.

1 votos

¡Genial! La primera parte importante para mí es que sus criterios de retención utilizan $\bar{\lambda}^{r}_{q}$ es decir, un valor de corte específico para cada factor $q$ . La frase cuestionable "El análisis paralelo sugiere que sólo los factores con valor propio de 2,21 o más deben ser retenidos" es igual a $\forall~q~\bar{\lambda}^{r}_{q}=2.21$ . Esto es imposible. Para el análisis de componentes principales los vectores propios suman $p$ para el análisis factorial a $< p$ . Una sola $\bar{\lambda}^{r}$ independientemente de $q$ sólo existe para datos totalmente no correlacionados ( $n \rightarrow \infty$ ) y entonces es 0 (fa) o 1 (pca). ¿Correcto?

0 votos

Ya había leído su artículo "Aclarando suavemente..." y me gustó mucho. En este post afirmas que "utilizando la llamada regla de Kaiser los valores propios mayores que cero se conservan para el análisis factorial principal/análisis factorial común" y en el documento hay un comentario similar. Desde el punto de vista matemático, es intuitivo y tiene todo el sentido del mundo. ¿Hay otros artículos/libros sobre esto, o es "Gently Clarifying ..." el primero que aclara suavemente que cero ¿es la referencia adecuada para el análisis factorial principal (si es que se utiliza el criterio de Kaiser)?

2 votos

Posiblemente: puede que simplemente hayan querido decir que el más pequeño de los valores propios observados mayor que $\bar{\lambda}^{\text{r}}$ (es decir, los que retuvieron) fue de 2,21. Hay una advertencia que yo añadiría: hay que revisar la primera forma del criterio de retención cuando se utiliza la matriz de covarianza, $\mathbf{\Sigma}$ . La suposición cuando se utiliza $\mathbf{\Sigma}$ es que la varianza total (PCA) es igual a la suma de las varianzas observadas de los datos, y la $>1$ se traduce en $ > \text{trace}(\mathbf{\Sigma})/p$ La cifra podría ser de 2,21.

4voto

Rodrigo Guedes Puntos 111

Sí, es posible tener un valor de 2,21 si el tamaño de la muestra no es infinitamente grande (o suficientemente grande...). Esta es, de hecho, la motivación detrás del desarrollo del Análisis Paralelo como un aumento de la regla del valor propio 1.

Cito a Valle 1999 en esta respuesta y he puesto en cursiva la parte que habla directamente de su pregunta.

Selección del número de componentes principales:  La varianza del criterio de error de reconstrucción con una comparación con otros métodos † Sergio Valle,Weihua Li, y, y S. Joe Qin* Investigación en química industrial y de ingeniería 1999 38 (11), 4389-4401

Análisis paralelo . El método PA básicamente construye modelos PCA para dos matrices: una es la matriz de datos original matriz de datos original y la otra es una matriz de datos con el mismo tamaño que la matriz original. Este método método fue desarrollado originalmente por Horn para mejorar el rendimiento de la prueba Scree. Cuando los valores propios de cada matriz se representan en la misma figura, todos los valores por encima de la intersección representan el proceso información del proceso y los valores por debajo de la intersección se se consideran ruido. Debido a esta intersección, el método de análisis paralelo de análisis paralelo no es ambiguo en la selección del el número de PC. Para un gran número de muestras, los valores propios de una matriz de correlación de variables no correlacionadas son 1. En este caso, el método PA es idéntico al método AE. Sin embargo, cuando las muestras se generan con un número de muestras, los valores propios iniciales superan el 1 mientras que los valores propios finales son inferiores a 1. Por eso Horn sugirió comparar la matriz de correlación de variables no correlacionadas con los de una matriz de datos reales basada en el mismo tamaño de muestra.

0 votos

La cuestión es si un valor único de 2,21 puede ser razonable. Como muestra la parte en cursiva de su cita de Valle et al. con un número finito de observaciones, siempre habrá (a mi entender) una serie de valores propios decrecientes. Así, para cada factor de los datos originales, hay un valor propio diferente del análisis paralelo para comparar. Cuando el tamaño de la muestra se hace grande (un par de miles de individuos), los valores propios convergen a 1. En ese caso podría entender una única comparación, pero sólo en el nivel 1.

0 votos

¿No significa el 2,21 aquí para este conjunto de datos y el método utilizado (por lo que la combinación) 2,21 es el corte por debajo del cual el valor propio es demasiado pequeño? No estoy seguro de lo que quiere decir con "valor propio". ¿Te refieres a una regla general, como la regla del valor propio 1? El punto de corte es diferente para cada análisis paralelo normalmente.

0 votos

Entiendo que el análisis paralelo depende del número de variables (en mi ejemplo anterior "10 tareas") y del número de observaciones (200 en el ejemplo). Por lo tanto, es muy específico para un conjunto de datos individual y no puede haber una regla general como "no utilice el valor propio 1, utilice el valor propio 2,21". Eso no tendría sentido. Pero para un ejemplo concreto con 200 observaciones sobre 10 variables y, por tanto, de 1 a 10 factores. ¿Puede ser que un análisis paralelo sugiera retener los factores con un valor propio superior a 2,21 independientemente de si el factor es el primero, el segundo, el tercero,...?

2voto

Nick Stauner Puntos 8220

Su ejemplo no es ciertamente claro, pero tampoco puede ser un disparate. Brevemente, considere la posibilidad de que el ejemplo esté basando su regla de decisión en el valor propio del primer factor simulado que sea mayor que el factor real del mismo número de factor. Aquí hay otro ejemplo en r :

d8a=data.frame(y=rbinom(99,1,.5),x=c(rnorm(50),rep(0,49)),z=rep(c(1,0),c(50,49)))
require(psych);fa.parallel(d8a)

Los datos son aleatorios y sólo hay tres variables, por lo que un segundo factor ciertamente no tendría sentido, y eso es lo que indica el análisis paralelo. * Los resultados también corroboran lo dicho por @Alexis respecto a " El malentendido ".

Digamos que interpreto este análisis de la siguiente manera: "El análisis paralelo sugiere que sólo los factores [ no componentes] con un valor propio de 1,2E-6 o más deben conservarse". Esto tiene cierto sentido porque ese es el valor del primer valor propio simulado que es mayor que el valor propio "real", y todos los valores propios posteriores disminuyen necesariamente. Es una forma incómoda de informar de ese resultado, pero al menos es coherente con el razonamiento de que uno debería mirar con mucho escepticismo cualquier factor (o componente) con valores propios que no sean mucho mayores que los correspondientes valores propios de los datos simulados y no correlacionados. Este debería ser el caso después de la primera instancia en el diagrama de dispersión donde el valor propio simulado excede el valor propio real correspondiente. En el ejemplo anterior, el tercer factor simulado es ligeramente menor que el tercer factor "real", pero nadie en su sano juicio va a retener una solución de tres factores aquí.


*En este caso, R dice: "El análisis paralelo sugiere que el número de factores = 1 y el número de componentes = 2", pero es de esperar que la mayoría de nosotros sepamos que no debemos confiar en nuestro software para que interprete nuestros gráficos por nosotros... Definitivamente no retendría el segundo componente sólo porque es infinitesimalmente mayor que el segundo componente simulado.

1 votos

Una idea genial y creativa de cómo interpretar la frase. Lo he considerado más que brevemente. No es el caso.

0 votos

Oy. Suena como un artículo raro con el que estás trabajando...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X