8 votos

Distancia de Mahalanobis en datos no normales

La distancia de Mahalanobis, cuando se utiliza con fines de clasificación, suele suponer una distribución normal multivariante, por lo que las distancias al centroide deberían seguir una $\chi^2$ distribución (con $d$ grados de libertad iguales al número de dimensiones/características). Podemos calcular la probabilidad de que un nuevo punto de datos pertenezca al conjunto utilizando su distancia de Mahalanobis.

Tengo conjuntos de datos que no siguen una distribución normal multivariante ( $d \approx 1000$ ). En teoría, cada característica debería seguir una distribución de Poisson, y empíricamente parece ser el caso de muchas ( $\approx 200$ ), y los que no lo hacen están en el ruido y pueden ser eliminados del análisis. ¿Cómo puedo clasificar nuevos puntos en estos datos?

Supongo que hay dos componentes:

  1. ¿Cuál es la fórmula adecuada de la "distancia de Mahalanobis" en estos datos (es decir, la distribución multivariante de Poisson)? ¿Existe una generalización de la distancia a otras distribuciones?
  2. Tanto si utilizo la distancia normal de Mahalanobis como otra formulación, ¿cuál debería ser la distribución de estos ¿las distancias son? ¿Hay alguna forma diferente de hacer la prueba de hipótesis?

Alternativamente...

El número de puntos de datos conocidos $n$ en cada clase varía mucho, desde $n=1$ (demasiado poco; determinaré un mínimo empíricamente) a alrededor de $n=6000$ . La distancia de Mahalanobis escala con $n$ Por lo tanto, no se pueden comparar directamente las distancias de un modelo/clase con el siguiente. Cuando los datos se distribuyen normalmente, la prueba de chi-cuadrado proporciona una forma de comparar las distancias de los diferentes modelos (además de proporcionar valores críticos o probabilidades). Si hay otra forma de comparar directamente las distancias "tipo Mahalanobis", aunque sea no proporcionar probabilidades, podría trabajar con eso.

6voto

Awais Tariq Puntos 116

Tal vez quiera consultar Karlis y Meligkotsidou, "Multivariate poisson regression with covariance structure". 2005. Este artículo trata de los intentos de los autores de modelar variables de Poisson multivariantes, lo que reconocen que es una tarea difícil.

El uso de la distancia de Mahalanobis implica que la inferencia puede hacerse a través de la media y la matriz de covarianza, y eso es una propiedad de la distribución normal por sí sola. Si utiliza la DM en sus datos, básicamente está fingiendo que son normales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X