Tengo un conjunto de datos de llamadas con ~20 variables y estoy tratando de determinar qué combinación de variables conduce a una "victoria" o una "derrota". Por ejemplo, cuando la variable A es alta y la variable B es alta, eso conduce a victorias. ¿Se trata de un análisis factorial?
Respuesta
¿Demasiados anuncios?No, al menos no directamente.
Le interesa predicción una variable en función de otras variables, algo que el análisis factorial no permite. El enfoque más común para la predicción sería un modelo de regresión. Dado que el resultado es binomial (tiene dos niveles categóricos, "victoria" y "derrota"), sería conveniente utilizar una regresión logística.
20 variables es un número relativamente elevado de predictores: dependiendo del tamaño de la muestra y del grado de intercorrelación entre ellas, esto puede causar problemas a la hora de ajustar un modelo o de generalizar los resultados. Una solución sería paso a paso regresión logística, que puede identificar un número menor de predictores con un poder predictivo óptimo. Esto funciona añadiendo predictores uno a uno hasta que los predictores adicionales ya no mejoran la predicción (paso a paso hacia delante), o empezando con el modelo completo y eliminando predictores hasta que hacerlo ya no reduce el poder predictivo (paso a paso hacia atrás). Un método alternativo sería un modelo de regresión penalizado, como la regresión ridge o la regresión lasso.
Otro enfoque sería un método de reducción de la dimensionalidad, como (sí) el análisis factorial. El análisis factorial intenta explicar los patrones de intercorrelación entre un gran número de variables en términos de un número menor de variables subyacentes (o "latentes"). Puede proporcionar estimaciones de estas variables latentes (puntuaciones factoriales), que luego puede incluir como predictores en su modelo de regresión. Este podría ser apropiado, especialmente si tiene razones para creer que sus 20 variables están evaluando un número menor de rasgos / procesos / lo que sea subyacentes. Sin embargo, sin saber más sobre su conjunto de datos, la regresión por pasos sería probablemente un punto de partida más sencillo.