24 votos

¿Cuáles son las versiones multidimensionales de la mediana

¿Cuáles son las versiones multidimensionales de la mediana y cuáles son sus ventajas y desventajas? Confieso que esto no tiene una sola respuesta, pero creo que es una pregunta útil de hacer y será un beneficio para los demás también.

La estabilidad (es decir, cuántas muestras se necesitan para obtener una estimación razonable de la misma) es una cuestión potencial, pero no necesaria, a favor y en contra, es decir, si se sabe que el número de muestras necesarias crece exponencialmente con cada aumento de dimensión, haciéndolo útil en 10 dimensiones pero efectivamente inútil en 200 dimensiones, sería útil saberlo. (Yo esperaría que todos ellos tuvieran eso, realmente, porque hay tanta "libertad" en 200 dimensiones que sólo se necesita un billón de puntos para clavar el centro básico de una distribución a lo largo de tantas direcciones).

Nota: Encontré esta pregunta después de aceptar una respuesta para esto. No lo había visto antes porque no me di cuenta de que había tanto un análisis multivariado como una etiqueta multivariable. No estoy seguro de por qué la mediana geométrica era una respuesta impopular allí (1 voto y cerca del fondo) pero una respuesta popular aquí.

23voto

Bitwise Puntos 3141

El Mediana geométrica es una generalización de la mediana a las dimensiones superiores.

Una de las propiedades de la mediana es que es un punto con una distancia mínima a todos los demás puntos del conjunto, y GM generaliza esta noción (utilizando la distancia Euclidiana/L2).

En cuanto a la robustez, el artículo de Wikipedia menciona que: "La mediana geométrica tiene un punto de desglose de 0,5. Es decir, hasta la mitad de los datos de la muestra pueden estar arbitrariamente corrompidos, y la mediana de las muestras seguirá proporcionando un estimador robusto para la ubicación de los datos no corrompidos".

A continuación, observe que en una dimensión, la minimización de las distancias L1 y L2 es la misma, pero en dimensiones superiores es diferente. Por lo tanto, las diferentes normas darán lugar a diferentes generalizaciones. Este El papel, a mi entender, sugiere que la generalización de la distancia L1, que simplemente llaman el estimador de la "Suma Mínima de Distancias", también es robusta.

Así que parece que hay al menos dos generalizaciones útiles: L1 (MSoD) y L2 (GM).

Para tener una perspectiva adicional, nótese que también se podría considerar la posibilidad de reducir al mínimo el cuadrado de las distancias. Esta es, de hecho, la media aritmética.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X