Distancia de Mahalanobis en datos no normales

Question

Distancia de Mahalanobis en datos no normales

Preguntado el 3 de Julio, 2013: Cuando se hizo la pregunta
984 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

La distancia de Mahalanobis, cuando se utiliza con fines de clasificación, suele suponer una distribución normal multivariante, por lo que las distancias al centroide deberían seguir una $\chi^2$ distribución (con $d$ grados de libertad iguales al número de dimensiones/características). Podemos calcular la probabilidad de que un nuevo punto de datos pertenezca al conjunto utilizando su distancia de Mahalanobis.

Tengo conjuntos de datos que no siguen una distribución normal multivariante ( $d \approx 1000$ ). En teoría, cada característica debería seguir una distribución de Poisson, y empíricamente parece ser el caso de muchas ( $\approx 200$ ), y los que no lo hacen están en el ruido y pueden ser eliminados del análisis. ¿Cómo puedo clasificar nuevos puntos en estos datos?

Supongo que hay dos componentes:

¿Cuál es la fórmula adecuada de la "distancia de Mahalanobis" en estos datos (es decir, la distribución multivariante de Poisson)? ¿Existe una generalización de la distancia a otras distribuciones?
Tanto si utilizo la distancia normal de Mahalanobis como otra formulación, ¿cuál debería ser la distribución de estos ¿las distancias son? ¿Hay alguna forma diferente de hacer la prueba de hipótesis?

Alternativamente...

El número de puntos de datos conocidos $n$ en cada clase varía mucho, desde $n=1$ (demasiado poco; determinaré un mínimo empíricamente) a alrededor de $n=6000$ . La distancia de Mahalanobis escala con $n$ Por lo tanto, no se pueden comparar directamente las distancias de un modelo/clase con el siguiente. Cuando los datos se distribuyen normalmente, la prueba de chi-cuadrado proporciona una forma de comparar las distancias de los diferentes modelos (además de proporcionar valores críticos o probabilidades). Si hay otra forma de comparar directamente las distancias "tipo Mahalanobis", aunque sea no proporcionar probabilidades, podría trabajar con eso.

Preguntado el 3 de Julio, 2013 por Harald Joerg

Answer 1

1 Respuestas

Answer 2

6voto

Awais Tariq Puntos 116

Tal vez quiera consultar Karlis y Meligkotsidou, "Multivariate poisson regression with covariance structure". 2005. Este artículo trata de los intentos de los autores de modelar variables de Poisson multivariantes, lo que reconocen que es una tarea difícil.

El uso de la distancia de Mahalanobis implica que la inferencia puede hacerse a través de la media y la matriz de covarianza, y eso es una propiedad de la distribución normal por sí sola. Si utiliza la DM en sus datos, básicamente está fingiendo que son normales.

Respondido el 3 de Julio, 2013 por Awais Tariq (116 Puntos )

Distancia de Mahalanobis en datos no normales

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Distancia de Mahalanobis en datos no normales

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: