21 votos

¿Por qué se utiliza la reducción de la dimensionalidad si casi siempre reduce la variación explicada?

Digamos que tengo $N$ covariables en mi modelo de regresión, y explican el 95% de la variación del conjunto de objetivos, es decir $r^2=0.95$ . Si hay multicolinealidad entre estas covariables, se realiza un PCA para reducir la dimensionalidad. Si los componentes principales explican, digamos, el 80% de la variación (frente al 95%), entonces he incurrido en alguna pérdida en la precisión de mi modelo.

Efectivamente, si el ACP resuelve el problema de la multicolinealidad a costa de la precisión, ¿tiene algún beneficio, aparte del hecho de que puede acelerar el entrenamiento del modelo y puede reducir las covariables colineales en variables estadísticamente independientes y robustas?

33voto

Matthias Puntos 31

Su pregunta supone implícitamente que reducir la variación explicada es necesariamente algo malo. Recuerde que $R^2$ se define como: $$ R^2 = 1 - \frac{SS_{res}}{SS_{tot}} $$ donde $SS_{res} = \sum_{i}{(y_i - \hat{y})^2}$ es una suma de cuadrados residual y $SS_{tot} = \sum_{i}{(y_i - \bar{y})^2}$ es una suma total de cuadrados. Se puede fácilmente obtener un $R^2 = 1$ (es decir $SS_{res} = 0$ ) ajustando una recta que pase por todos los puntos (de entrenamiento) (aunque esto, en general, requiere un modelo más flexible que una simple regresión lineal, como señala Eric), lo que es un ejemplo perfecto de sobreajuste . Por lo tanto, reducir la variación explicada no es necesariamente malo, ya que podría dar lugar a un mejor rendimiento en datos no vistos (de prueba). El PCA puede ser una buena técnica de preprocesamiento si hay razones para creer que el conjunto de datos tiene una estructura intrínseca de dimensiones inferiores.

10voto

Andie2302 Puntos 461

En su pregunta hay una suposición implícita de que el regresor es lineal.
En caso de que sea lineal su afirmación es correcta.

Pero en el caso de regresores no lineales, se puede considerar la reducción de la dimensionalidad como una extracción de características.
En ese caso tiene un papel muy importante para obtener buenos resultados.
Podría reducir el ruido, podría ayudar en el aprendizaje, etc...

10voto

user164061 Puntos 281

Si los componentes principales explican, digamos, el 80% de la variación (en lugar del 95%), entonces he incurrido en cierta pérdida en la precisión de mi modelo.

La realización del PCA no reduce la precisión del modelo. Los componentes principales, cuando se utilizan todos, también deberían explicar el 95%. Es la reducción de la dimensionalidad lo que reduce la variación explicada.

Así que se trata de una cuestión de selección de modelos y de encontrar modelos con menos parámetros. El papel del ACP es hacer esta selección de modelos redefiniendo el espacio de parámetros para encontrar un pequeño número de componentes que expliquen una gran cantidad de variación.

9voto

dan90266 Puntos 609

La reducción de datos (aprendizaje no supervisado) no siempre se utiliza por la esperanza de obtener un rendimiento maravilloso, sino más bien por necesidad. Cuando se plantea el problema de "demasiadas variables y pocas observaciones", las principales alternativas son la estimación de máxima verosimilitud penalizada (regresión de cresta, lazo, red elástica, etc.) o la reducción de datos. La reducción de datos, que como beneficio secundario trata bien la colinealidad, puede ser más interpretable y funciona en cualquier contexto predictivo. En mi opinión, la reducción de datos es preferible a la selección de variables, porque en la mayoría de los problemas la selección de variables produce un resultado demasiado aleatorio o inestable. El espíritu de la reducción de datos es el siguiente: Estimar la complejidad del modelo que puede soportar el tamaño de la muestra disponible. Reduzca la dimensionalidad (de forma que quede completamente oculta para Y) y ajuste un único modelo cuyo número de parámetros (que se estiman en función de Y) sea compatible con el tamaño efectivo de la muestra.

Cuando se utiliza la agrupación de variables o los componentes principales dispersos, se representan grupos de variables con puntuaciones. A veces se puede descartar un grupo entero. Este procedimiento no se ve distorsionado por las colinealidades.

3voto

bohan Puntos 522

Tomemos un ejemplo sencillo de cálculo del factor de ajuste estacional por meses a lo largo de un conjunto de años para las ventas de una empresa. Supongamos que no hay tendencia lineal, excepto si los años están asociados a un periodo inflacionista. Nota: En realidad, se trabajaría con una transformación logarítmica de los datos, lo que supone una relación de cambio porcentual constante a lo largo del tiempo.

Si se reagrupan los datos mensuales a lo largo de los años, se obtienen buenos resultados por meses si los periodos inflacionistas son poco frecuentes. Si por casualidad se adivina que la estacionalidad del año se encuentra en un periodo no inflacionista, se obtienen las mejores estimaciones con las mejores estimaciones de error. Así pues, la reducción de la dimensionalidad (ignorando los años) es claramente la mejor.

Sin embargo, si resulta que usted está en un período inflacionista, no tan bueno ajuste estacional mensual. Sin embargo, un modelo anual puede captar la tendencia de la inflación y producir mejores resultados.

Entonces, ¿qué modelo utilizar, colapsado o completo?

Un enfoque consiste en estimar la probabilidad de que pueda ser un periodo inflacionista basándose en la historia,

A continuación, ¿cuál es el coste operativo asociado a tener un error medio de X en la estacionalidad de un mes?

Conociendo la diferencia de coste por mes debida al error de modelización para colapsado frente a completo para inflacionista frente a no inflacionista, y la probabilidad asociada de cada caso, se puede tomar una decisión que produzca el menor coste esperado.

Esto supone que este ejercicio se repite a lo largo del tiempo y que los parámetros iniciales estimados son buenas estimaciones.

Así pues, la respuesta concreta está relacionada con la naturaleza de los datos, la precisión de la especificación/estimación del modelo y los conocimientos asociados relativos a las estimaciones de costes por error.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X