9 votos

¿Por qué la variación (en lugar de la desviación estándar) es la medida predeterminada del contenido de información en los componentes principales?

El contenido de la información de componentes principales es casi siempre expresada como una desviación (por ejemplo, en el cantizal de las parcelas o en las declaraciones como "los tres primeros PCs contienen un 95% del total de la varianza de los datos"). La intención de este uso es describir cómo la cantidad de variación/información está contenida en el Pc. a mí me parece que la varianza puede ser una medida engañosa de la información contenida en los Ordenadores, porque es un cuadrado de la métrica de variación que se hace hincapié en las grandes desviaciones de la media más pequeños. Esto puede groseramente no tienen debidamente en cuenta la importancia de la información contenida en el menor autovalor de PCs. La desviación estándar de los equipos que parecen ser una manera mucho más directa, significativa y equilibrada métrica de la información que contienen.

Estoy muy claro sobre las razones para el uso de la varianza en las estadísticas de manera más general, es decir, matemáticamente mucho más conveniente que la desviación estándar. Sin embargo, me pregunto si hay una razón de por qué la varianza se utiliza una medida de la variación en el Pc en lugar de la desviación estándar. Hay buenas referencias de este dilema?

Actualización para aclarar: yo debería estar claro que no estoy preguntando acerca de por qué la varianza se utiliza en la obtención de los componentes principales, sino más bien por qué se utiliza como valor predeterminado descriptor de la variación en la Pc al informar de los resultados de la PCA. Muchas personas parecen uso de la "variación" y "variación" como sinónimos en este contexto, pero no es la desviación estándar, una medida de la variación, y la varianza de un cuadrado de la medida de la variación? Un PC que contiene el 95% de la varianza de los datos puede contener sólo el 80% de la variación en los datos, como medido en desviaciones estándar: ¿no es éste un mejor descriptor?

12voto

zowens Puntos 1417

Informes de desviaciones estándar en lugar de las variaciones de los

Creo que tienes razón en que la desviación estándar de cada PC puede tal vez ser más razonable o más intuitiva (para algunos), la medida de su "influencia" de su varianza. Y, de hecho, incluso tiene una clara interpretación matemática: desviaciones de la Pc son los autovalores de la matriz de covarianza, pero las desviaciones estándar son los valores singulares de la centrada en la matriz de datos [sólo escalan por $1/\sqrt{n-1}$].

Así que sí, es totalmente bien para informar de ello. Por otra parte, por ejemplo, la R informe de desviaciones estándar de los Pc en lugar de sus varianzas. Por ejemplo, la ejecución de este código simple:

irispca <- princomp(iris[-5])
summary(irispca)

los resultados en este:

Importance of components:
                          Comp.1     Comp.2     Comp.3      Comp.4
Standard deviation     2.0494032 0.49097143 0.27872586 0.153870700
Proportion of Variance 0.9246187 0.05306648 0.01710261 0.005212184
Cumulative Proportion  0.9246187 0.97768521 0.99478782 1.000000000

Hay desviaciones estándar por aquí, pero no varianzas.

La variación explicada

Un PC que contiene el 95% de la varianza de los datos puede contener sólo el 80% de la variación en los datos, como medido en desviaciones estándar: ¿no es éste un mejor descriptor?

Sin embargo, tenga en cuenta que después de la presentación de desviaciones estándar, R no muestra una "proporción de la desviación estándar", sino que una proporción de la varianza. Y hay una muy buena razón para ello.

Matemáticamente, el total de la varianza (siendo una traza de la matriz de covarianza) se conserva bajo rotaciones. Esto significa que la suma de la varianza de las variables originales es igual a la suma de las varianzas de los PCs. En caso de que el mismo Fisher Iris conjunto de datos, esta suma es igual a $4.57$, y por lo tanto podemos decir que la PC1, teniendo una variación de $2.05^2=4.20$ explican $92\%$ de la varianza total.

Pero la suma de las desviaciones estándar no se conserva! La suma de las desviaciones estándar de las variables originales es $3.79$. La suma de las desviaciones estándar de los Pc es $2.98$. Ellos no son iguales! Así que si usted quiere decir que la PC1 con desviación estándar $2.05$ explican $x\%$ del total de "desviación estándar", lo tomaría como este total? No hay una respuesta, porque simplemente no tiene sentido.

La línea de fondo es que es totalmente bien para mirar la desviación estándar de cada uno de los PC e incluso compararlos entre sí, pero si quieres hablar de "explicar" algo, entonces sólo "de la variación explicada" tiene sentido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X