16 votos

¿Cómo mejora el PCA la precisión de un modelo predictivo?

He visto en un desafío kaggle sobre el reconocimiento de dígitos alguien que utilizó PCA antes del árbol de decisión u otras técnicas.

Pensaba que era sólo para comprimir datos, pero su objetivo era mejorar su puntuación.

¿Cómo puede el PCA mejorar la puntuación en este caso? ¿Se debe a que hay menos sobreajuste?

0 votos

Me atrevería a decir que los árboles de decisión son más difíciles de entrenar. Hay muchos detalles en los algoritmos de aprendizaje para ellos. El PCA tiene un marco bien fundado para ajustar en lugar de perderse en los detalles.

1 votos

La reducción de la dimensionalidad mediante el PCA puede servir definitivamente como regularización para evitar el sobreajuste. Por ejemplo, en la regresión se conoce como "regresión de componentes principales" y está relacionada con la regresión de crestas. Para la clasificación, véase, por ejemplo, aquí: ¿Tiene sentido combinar PCA y LDA?

0 votos

Creo que la respuesta de arriba no entiende el sentido de esta pregunta (ver mi comentario debajo de ella). Le sugiero que lea este hilo stats.stackexchange.com/questions/141864 y siga los enlaces para ver el debate completo.

12voto

jws121295 Puntos 36

Vale, pues resulta que la mecha parada no era de la parte descendente del hilo, sino de la parte del hilo que ya estaba mojada. Supongo que la pregunta, entonces, es ¿por qué la cuerda sólo mecha donde está mojada?

4 votos

A parte : Me interesaría ver una fuente precisa y acreditada de su cita introductoria. Se atribuye a varias personas en Internet, sobre todo a Yogi Berra y a Albert Einstein. Yo tengo personalmente Lo escuché de un ingeniero que es una generación mayor que Perlmutter y esto fue hace suficiente tiempo que me hace altamente duda de que Perlmutter pueda ser la fuente original.

3 votos

Cardenal - No es la fuente original, pero es la fuente de la que me enteré. Le vi presentar algo en el escenario en 2009. Lo único que conservo, 4 años después, es esta cita.

1 votos

Esta conversación es muy divertida, mucho más que la propia cita. Una vez le pregunté a mi profesor si podía citar una cita porque el documento original era un fantasma.

5voto

Édouard Lopez Puntos 863

Descargo de responsabilidad: suelo equivocarme en las cosas.

Los árboles de decisión, en virtud de la división recursiva de sus muestras, con divisiones basadas en una sola variable, sólo pueden generar límites de decisión paralelos a los ejes de su sistema de coordenadas. Así que girando los datos en las direcciones de máxima varianza/diagonalizando la matriz de covarianza lo mejor posible, puede ser más fácil poner límites de decisión entre las distribuciones de clase

Dicho esto, no estoy seguro de por qué hacer PCA (sin descartar algunos de sus vectores propios) antes de utilizar un modelo de red neuronal o lo que sea, porque la rotación por sí sola no hace ninguna diferencia - la red puede aproximar cualquier función a través del espacio de características.

1voto

Daniel Daranas Puntos 15123

Una idea que obtuve de "A Tutorial on Principal Component Analysis" de Jonathon Shlens: Realizar el ACP es como elegir el ángulo de la cámara, para obtener la mejor visión posible de la varianza a explicar.

Así que me uno al usuario1843053. Con un ángulo adecuado, los límites de decisión paralelos a los ejes del nuevo sistema de coordenadas rotado podrían tener más sentido que en el espacio de características original, permitiendo un mejor rendimiento de, por ejemplo, los árboles de decisión, incluso sin descartar las dimensiones "no principales".

0voto

romada Puntos 21

Tenga en cuenta que $e^{-nx}x^n=(xe^{-x})^n$ . Denote $f(x)=xe^{-x}$ . Para los no negativos $x$ , $f(x)$ es no negativo, y $f$ tiene un máximo global cuando $f'(x)=x(-e^{-x})+(1)e^{-x}=0$ o $x=1$ . (Esto se puede ver gráficamente, pero si se necesita establecerlo rigurosamente también hay que ver $f(0)=0$ , $\lim_{x\to\infty}f(x)=0$ y $f''(1)<0$ para demostrar formalmente un máximo global). Entonces, dado $f(1)=e^{-1}$ tenemos

$$ e^{-nx}x^n = (xe^{-x})^n \le e^{-n}.$$

Desde $\sum_{n=1}^\infty e^{-n}$ converge, ya que $|e^{-1}|<1$ y es una serie geométrica, la prueba M muestra que la serie original converge uniformemente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X