27 votos

¿Por qué transformar logarítmicamente los datos antes de realizar el análisis de componentes principales?

Estoy siguiendo un tutorial aquí: http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ para comprender mejor la PCA.

El tutorial utiliza el conjunto de datos Iris y aplica una transformación logarítmica antes del ACP:

Observe que en el siguiente código aplicamos una transformación logarítmica a las variables continuas como sugiere [1] y establecemos center y scale igual a TRUE en la llamada a prcomp para estandarizar las variables antes de la aplicación del ACP.

¿Podría alguien explicarme en lenguaje llano por qué se utiliza primero la función logarítmica en las cuatro primeras columnas del conjunto de datos Iris? Entiendo que tiene algo que ver con hacer los datos relativos pero estoy confundido cuál es exactamente la función de logaritmo, centro y escala.

La referencia [1] anterior se refiere a Venables y Ripley, Estadística aplicada moderna con S-PLUS , sección 11.1 que dice brevemente:

Los datos son medidas físicas, por lo que una buena estrategia inicial es trabajar a escala logarítmica. Así se ha hecho en todo el proceso.

31voto

Mirko Friedenhagen Puntos 304

El conjunto de datos del iris es un buen ejemplo para aprender PCA. Dicho esto, las cuatro primeras columnas que describen la longitud y la anchura de los sépalos y los pétalos no son un ejemplo de datos muy sesgados. Por lo tanto, la transformación logarítmica de los datos no cambia mucho los resultados, ya que la rotación resultante de los componentes principales no se ve alterada por la transformación logarítmica.

En otras situaciones, la transformación logarítmica es una buena opción.

Realizamos el ACP para conocer la estructura general de un conjunto de datos. Centramos, escalamos y, a veces, hacemos una log-transformación para filtrar algunos efectos triviales, que podrían dominar nuestro PCA. El algoritmo de un ACP encontrará a su vez la rotación de cada PC para minimizar los residuos al cuadrado, es decir, la suma de las distancias perpendiculares al cuadrado desde cualquier muestra a los PC. Los valores grandes tienden a tener una gran influencia.

Imagine que inyecta dos nuevas muestras en los datos del iris. Una flor con una longitud de pétalo de 430 cm y otra con una longitud de pétalo de 0,0043 cm. Ambas flores son muy anormales, ya que son 100 veces más grandes y 1000 veces más pequeñas, respectivamente, que los ejemplos medios. El apalancamiento de la primera flor es enorme, de tal forma que los primeros PC describirán mayoritariamente las diferencias entre la flor grande y cualquier otra flor. La agrupación de especies no es posible debido a ese único valor atípico. Si los datos se transforman logarítmicamente, el valor absoluto describe ahora la variación relativa. Ahora la flor pequeña es la más anómala. No obstante, es posible contener todas las muestras en una imagen y proporcionar una agrupación justa de las especies. Eche un vistazo a este ejemplo:

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

enter image description here

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

enter image description here

3voto

kcrumley Puntos 2495

Bueno, la otra respuesta da un ejemplo, cuando se utiliza la log-transformación para reducir la influencia de valores extremos o valores atípicos.
Otro argumento general se produce, cuando se intenta analizar datos que son multiplicativamente compuesto en lugar de además - PCA y FA modelan por sus matemáticas tales composiciones aditivas. Multiplicativo Las composiciones se dan en el caso más simple en datos físicos como la superficie y el volumen de cuerpos (funcionalmente) dependientes de (por ejemplo) los tres parámetros longitud, anchura, profundidad. Se pueden reproducir las composiciones de un ejemplo histórico del primer PCA, creo que se llama "Thurstone's Ball- (or 'Cubes'-) problem" o similar. Una vez había jugado con los datos de ese ejemplo y había encontrado que los datos log-transformados daban un modelo mucho más bonito y claro para la composición de los datos medidos de volumen y superficie con las tres medidas unidimensionales.

Además de estos ejemplos sencillos, si consideramos en la investigación social los datos interacciones entonces solemos pensar que son medidas compuestas multiplicativamente de elementos más elementales. Así que si nos fijamos específicamente en las interacciones, una log-transformación podría ser una herramienta útil especial para obtener un modelo matemático para la de-composición.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X