15 votos

Elipsoide de mejor ajuste

Dada una colección de puntos $P \subset \mathbb R^3$ una burda caracterización de la "forma" de $P$ a veces viene dada por los componentes principales. Construimos una matriz de covarianza, por ejemplo, si $P$ es discreto, $C = \displaystyle\sum_{p\in P} (p - \mu)(p - \mu)^\intercal$ , donde $\mu = \displaystyle\frac1{|P|}\sum_{p\in P}\, p$ es el centro de masa. Esto define un elipsoide cuyos semiejes están definidos por los vectores propios unitarios de $C$ , escalado por los valores propios asociados.

Mi pregunta se refiere a la siguiente afirmación:

El elipsoide descrito por los componentes principales es el mejor ajuste elipsoide para $P$ .

Por desgracia, no conozco ningún autor o recurso al que pueda acusar de hacer explícitamente tal afirmación $^*$ . En fin, mi pregunta es:

¿Existe una definición geométrica natural de "elipsoide de mejor ajuste" para para la que la afirmación anterior sea cierta?

Por ejemplo, algún tipo de mínimos cuadrados u otra caracterización variacional de este mismo elipsoide es lo que estoy buscando. También aceptaría una respuesta que me convenciera de que esta es la forma incorrecta de ver los componentes principales, pero eso será difícil de vender.

Si hacemos una traslación de coordenadas, de manera que $v_p = (p - \mu)$ y que $\hat{v}_p = \frac{v_p}{\left\|v_p\right\|}$ y mira $C$ como una transformación lineal que es la suma de los operadores de rango uno en este sistema de coordenadas, $C = \displaystyle\sum_{p \in P} \left\|v_p\right\|^2 \hat{v}_p\hat{v}_p^\intercal$ entonces el elipsoide en cuestión es la imagen de la bola unitaria. De esta caracterización obtengo alguna intuición de por qué este elipsoide en particular es bueno. Estoy buscando una mejor comprensión, preferiblemente desde una perspectiva geométrica.


* La Wikipedia se acerca a tal afirmación en la descripción del momentos : "El 'segundo momento', ... en dimensiones superiores mide la forma de una nube de puntos como podría ser ajustada por un elipsoide".



Editar: Aunque creo que la observación de que el elipsoide refleja la varianza de la distribución gaussiana que tiene la máxima probabilidad de producir $P$ (No me he remangado y lo he comprobado), este no es el tipo de respuesta que busco. Tal vez debería eliminar todas las etiquetas que se refieren a la probabilidad o la regresión.

Voy a concretar la pregunta entonces. Por cosas que he visto en otros lugares de la web, me da la sensación de que este elipsoide es diferente al que minimiza la suma de distancias al cuadrado de los puntos, pero no lo sé con seguridad.

Qué tal esto entonces: el distancia radial desde un punto $p$ al elipsoide es la distancia medida a lo largo de la línea que contiene $p$ y $\mu$ (este último es el origen en nuestro nuevo sistema de coordenadas). Así que esta es mi pregunta:

¿El elipsoide definido anteriormente minimiza la suma de las distancias radiales al cuadrado?

0 votos

El enlace en la nota al pie de página se ve bien en la vista previa, pero no se renderiza correctamente en el post final?

0 votos

Gracias por arreglar eso @J.M.

0 votos

No te preocupes, @yasmar.

6voto

Jorrit Reedijk Puntos 129

Del principio del método de "jacobi-rotación" para la obtención de los componentes principales se desprende que algún elipsoide (basado en los datos) está definido por la siguiente idea:

caso bidimensional:

  1. girar la nube de puntos de datos de forma que la suma de coordenadas x al cuadrado ("ssq(x)") sea máxima

  2. la suma de coordenadas y al cuadrado ("ssq(y)") es entonces mínima.

caso multidimensional:

  1. se hace 1) con todos los pares de ejes x-y, x-z, x-w,... Esto da un máximo "temporal" de ssq(x)

  2. entonces se hace 1) con todos los pares y-z,y-w,... para obtener un máximo "temporal" de ssq(y) y así sucesivamente con z-w,....

  3. Luego se repite todo el proceso hasta la convergencia

En principio, esto sólo define el dirección de los ejes de algún elipsoide. Entonces, por ejemplo en la monografía "Faktorenanalyse" ("análisis de factores") de K. Ueberla, el tamaño del elipsoide se define por: "La longitud de los ejes son las raíces de ssq(eje)" (parafraseado) Aquí no se hace referencia directa a la propiedad de la desviación radial (cuando se representa en términos de coordenadas polares).

De hecho, el concepto de minimizar las distancias radiales es diferente por una simple consideración.
Si tenemos, por ejemplo, sólo tres puntos de datos que están casi en una línea recta, entonces el centro del círculo de mejor ajuste tiende al infinito y no a la media. Lo mismo puede ocurrir con alguna nube de puntos de datos cuya forma general es la de un segmento pequeño pero suficiente de la circunferencia de una elipse. Pues bien, podemos fuerza el origen en el centro aritmético de la nube - pero esto introduce una restricción probablemente artificial. En realidad, si se busca "regresión circular" se llega a métodos no lineales e iterativos muy diferentes del método de componentes principales.

Actualización] Aquí muestro la diferencia entre los dos conceptos en un ejemplo bidimensional. He generado datos aleatorios ligeramente correlacionados. Rotados a la posición pca, de manera que el eje x del gráfico es el primer princ.comp. (vector propio) y así sucesivamente.

La elipse azul es esa elipse utilizando los ejes-longitudes de stddev de los componentes principales.

Luego calculé otra elipse minimizando la suma de cuadrados de las distancias radiales de los puntos de datos a la circunferencia de la elipse (sólo comprobación manual), ésta es la elipse roja. Aquí está el gráfico:

ellipsefitting

[fin de la actualización]


Un comentario más para la visualización geométrica (es sólo para el caso bidimensional).

Considere la nube de datos como puntos finales de los vectores desde el origen. Entonces el concepto común de la resultante es la media de la suma aritmética/geométrica de todos los vectores. Esto también se llama "centroide" y en los primeros tiempos del análisis factorial, sin la ayuda de los ordenadores, era a menudo una aproximación aceptada para la "tendencia central": la media de las coordenadas es el mejor ajuste en el sentido de los mínimos "cuadrados de las distancias" .

Sin embargo, si algunos vectores tienen una dirección "opuesta" (¿mejor palabra?), su influencia se neutraliza, aunque definirían bien un eje. En el antiguo método del centroide, estos vectores se "inflexionaban" (se cambiaba el signo) para corregir este efecto.

Otra opción es duplicar el ángulo de cada vector - entonces los vectores opuestos se superponen y refuerzan la influencia del otro en lugar de neutralizarse. A continuación, se toma la media de los nuevos vectores y la mitad de su ángulo. Este es entonces el componente/eje principal y por lo tanto representa otra estimación por mínimos cuadrados para el ajuste. (El cálculo del criterio de rotación coincide perfectamente con la fórmula de minimización de la rotación de Jacobi para PCA)

0 votos

Esto es excelente, gracias. No estoy familiarizado con la rotación de Jacobi, ni con el análisis factorial, pero es estupendo conocer estas palabras clave. El contraejemplo de los tres puntos está bien tomado.

1voto

John Fouhy Puntos 759

Sólo para completar el comentario de Rahul: probablemente esta elección de $\mu$ y $\Sigma$ maximiza la probabilidad de los puntos dada una distribución gaussiana multivariante $N(\mu,\Sigma)$ .

0 votos

Gracias Yuval. Espero que tengas razón, pero no aceptaré hasta estar seguro. Mientras tanto, sigo esperando una respuesta más geométrica.

1voto

mfleshman Puntos 16

Has respondido a tu propia pregunta: mejor ajuste por componentes principales es un método adecuado. Simplemente hay que confiar en este método y estudiar sus propiedades.

Por ejemplo: olvídese de los datos incompletos y mal muestreados. Supongamos que hay muchos datos muestreados uniformemente [lo que es cierto en muchas aplicaciones, como la eliptometría]. Si esos datos proceden de una elipse, sus componentes principales son los mismos que los de la elipse mejor ajustada. Si los datos no proceden de una elipse, las preguntas sobre la bondad del ajuste carecen cada vez más de sentido, o dependen de la aplicación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X