Tengo 150 observaciones, 500 características, y me interesa la detección de novedades (detección de valores atípicos): dada una nueva observación (digamos "paciente"), quiero saber si es diferente de las anteriores (llamémosla "control"). Si dispusiera de muchos datos, probablemente utilizaría pruebas estadísticas a nivel de parámetros univariantes, pero, por cuestiones de pruebas múltiples, acabo explorando las colas de la distribución de control para alcanzar la significación, y no dispongo de datos suficientes para pruebas no paramétricas para valores p tan pequeños.
Estoy haciendo SVMs de una clase que alivian este problema mediante el aprendizaje de una estrategia de decisión global. Las limitaciones de este enfoque son
-
es muy "blackboxy
-
no funciona bien si los datos son muy "anisótropos", es decir, si las distribuciones marginales del control son muy diferentes en distintas direcciones.
Un truco para solucionar el problema 2 consiste en centrar y normalizar los parámetros univariantes (lo que suele denominarse crear "puntuaciones Z"). Lo ideal sería blanquear los datos utilizando la covarianza de control, pero no hay datos suficientes para calcularla. Los valores introducidos en el OC-SVM pueden entonces interpretarse como una estadística de prueba univariante (bajo una distribución nula normal para los controles).
En mi caso, puedo ver en los histogramas que la distribución del control es de cola pesada. Me gustaría aprender una transformación univariante que la acerque más a una normal estándar.
Por cierto, no tengo ninguna referencia sobre tales prácticas. Las he aprendido empíricamente y en discusiones de laboratorio. Cualquier indicación será bienvenida, aunque no responda directamente a mi pregunta.
0 votos
¿Intentaste hacer PCA, proyectar en un espacio de menor dimensión y estimar allí la covarianza?
0 votos
Es algo que tengo en mente, o estimación de covarianza regularizada. Jugué un poco con ello, pero no me dio resultados terriblemente buenos, y hacía que los resultados fueran más difíciles de interpretar.
0 votos
Por estimación regularizada de la covarianza, ¿se refiere a restringir la covarianza para que sea diagonal (en efecto, asumiendo la independencia de las características)?
0 votos
No, sino reduciéndola a la diagonal (por ejemplo, utilizando el estimador de Ledoit-Wolf), que de hecho se reduce a las mismas ideas, pero es un compromiso.
0 votos
¿podrías publicar tus datos en algún sitio? o un generador con un par de parámetros sería aún mejor, para que varias personas jueguen con ML de alta dimensionalidad.