¿Por qué se suelen seleccionar dos componentes principales para el análisis de regresión de principios? He leído en alguna parte que, al tratarse de datos bidimensionales, sólo debería haber 2 componentes principales extraídos del conjunto de datos. Incluso si 3 componentes principales explican más varianza (digamos el 80%) en comparación con dos componentes que explican (el 68%), deberíamos seleccionar sólo 2 componentes para la regresión. ¿Puede alguien confirmarlo?
Respuesta
¿Demasiados anuncios?¿Qué dimensión tienen sus datos originales? Ciertamente, si está comenzando con datos 2D, yo no iría a menos de 2D. Sin embargo, es posible que encuentre un mejor conjunto de ejes a través de PCA - sus datos pueden estar sesgados 45 grados o lo que sea.
La explicación más sencilla sobre la elección de las dimensiones es simplemente que la representación gráfica de los datos en 2D después del ACP es más fácil de ver. Es el clásico gráfico X/Y. En el caso ideal para la mayoría de la gente, usted va a su PCA ajustando sus datos de alta dimensión, proyecta sus datos en 2D, los grafica, y boom - usted tiene pequeños y maravillosos clusters, o los datos tienen una buena relación de algún tipo. Escribes tu artículo o entiendes algo bonito sobre los datos y sigues adelante. Pero... no siempre se tiene tanta suerte.
Así que depende de su caso de uso. Si transforma y traza su conjunto de datos transformados en 2D y revela lo que está tratando de determinar o mostrar, no importa realmente si representa el 99% de la varianza o el 68%. Hace lo que usted necesita que haga.
Sin embargo, si estás haciendo algo en lo que la varianza capturada realmente importa (es decir, tienes un conjunto de datos de gran dimensión que es demasiado grande para que quepa en la memoria de un modelo ML que estás entrenando), probablemente SÍ quieres intentar acercarte a capturar toda la varianza que puedas antes de quedarte sin memoria. Porque, obviamente, a su modelo NN o SVM no le importa lo "interpretables" que sean los datos, sólo necesita más varianza para trazar los límites en el espacio de alta dimensión para obtener una mejor precisión o puntuación F1, etc.
Como nota final, incluir toda la varianza tampoco es necesariamente lo mejor para los fines de la ML. Realizar el PCA y el entrenamiento sobre los datos después de eliminar una parte de la varianza puede ser en realidad una forma de regularización: elimina parte del ruido que sólo serviría para distraer a nuestro clasificador y hacer que se ajuste en exceso a cosas en nuestros datos que no importan realmente, o que no son representativas de los datos en general. Como siempre, una buena valoración cruzada y unos conjuntos de entrenamiento, validación y prueba limpios son tus amigos. Pueden ser la guía definitiva para elegir la dimensión del PCA.