El contenido de la información de componentes principales es casi siempre expresada como una desviación (por ejemplo, en el cantizal de las parcelas o en las declaraciones como "los tres primeros PCs contienen un 95% del total de la varianza de los datos"). La intención de este uso es describir cómo la cantidad de variación/información está contenida en el Pc. a mí me parece que la varianza puede ser una medida engañosa de la información contenida en los Ordenadores, porque es un cuadrado de la métrica de variación que se hace hincapié en las grandes desviaciones de la media más pequeños. Esto puede groseramente no tienen debidamente en cuenta la importancia de la información contenida en el menor autovalor de PCs. La desviación estándar de los equipos que parecen ser una manera mucho más directa, significativa y equilibrada métrica de la información que contienen.
Estoy muy claro sobre las razones para el uso de la varianza en las estadísticas de manera más general, es decir, matemáticamente mucho más conveniente que la desviación estándar. Sin embargo, me pregunto si hay una razón de por qué la varianza se utiliza una medida de la variación en el Pc en lugar de la desviación estándar. Hay buenas referencias de este dilema?
Actualización para aclarar: yo debería estar claro que no estoy preguntando acerca de por qué la varianza se utiliza en la obtención de los componentes principales, sino más bien por qué se utiliza como valor predeterminado descriptor de la variación en la Pc al informar de los resultados de la PCA. Muchas personas parecen uso de la "variación" y "variación" como sinónimos en este contexto, pero no es la desviación estándar, una medida de la variación, y la varianza de un cuadrado de la medida de la variación? Un PC que contiene el 95% de la varianza de los datos puede contener sólo el 80% de la variación en los datos, como medido en desviaciones estándar: ¿no es éste un mejor descriptor?