La distancia de Mahalanobis, cuando se utiliza con fines de clasificación, suele suponer una distribución normal multivariante, por lo que las distancias al centroide deberían seguir una $\chi^2$ distribución (con $d$ grados de libertad iguales al número de dimensiones/características). Podemos calcular la probabilidad de que un nuevo punto de datos pertenezca al conjunto utilizando su distancia de Mahalanobis.
Tengo conjuntos de datos que no siguen una distribución normal multivariante ( $d \approx 1000$ ). En teoría, cada característica debería seguir una distribución de Poisson, y empíricamente parece ser el caso de muchas ( $\approx 200$ ), y los que no lo hacen están en el ruido y pueden ser eliminados del análisis. ¿Cómo puedo clasificar nuevos puntos en estos datos?
Supongo que hay dos componentes:
- ¿Cuál es la fórmula adecuada de la "distancia de Mahalanobis" en estos datos (es decir, la distribución multivariante de Poisson)? ¿Existe una generalización de la distancia a otras distribuciones?
- Tanto si utilizo la distancia normal de Mahalanobis como otra formulación, ¿cuál debería ser la distribución de estos ¿las distancias son? ¿Hay alguna forma diferente de hacer la prueba de hipótesis?
Alternativamente...
El número de puntos de datos conocidos $n$ en cada clase varía mucho, desde $n=1$ (demasiado poco; determinaré un mínimo empíricamente) a alrededor de $n=6000$ . La distancia de Mahalanobis escala con $n$ Por lo tanto, no se pueden comparar directamente las distancias de un modelo/clase con el siguiente. Cuando los datos se distribuyen normalmente, la prueba de chi-cuadrado proporciona una forma de comparar las distancias de los diferentes modelos (además de proporcionar valores críticos o probabilidades). Si hay otra forma de comparar directamente las distancias "tipo Mahalanobis", aunque sea no proporcionar probabilidades, podría trabajar con eso.