Tengo un examen final sobre Almacenes de Datos y Minería de Datos (Licenciatura en Informática), y el profesor recomienda unos ejercicios extra en su página web, como material extra para estudiar antes del examen.
En ellos, se encuentra el siguiente ejercicio, entre otros:
En la siguiente imagen, podemos ver tres racimos bien definidos y dos valores atípicos. Describa la aplicación de una técnica que detecte los puntos atípicos sin realizar la agrupación, Sin embargo, sabiendo que todos los puntos [no atípicos] forman conglomerados de tamaño $>10$ .
Ahora bien, no conozco ninguna técnica que detecte los valores atípicos sin realizar realmente la agrupación, y he buscado los capítulos correspondientes en el libro de enseñanza para ver si se describe algún algoritmo o técnica. Encontré un total de una (¡1!) página, que dice brevemente:
Para eliminar los valores atípicos, calculamos la suma de las distancias de un punto hacia todos los demás. Para calcular las distancias, podemos utilizar la distancia de Mahalanobis Distancia.
Tras lo cual, el escritor del libro (también mi profesor de clase) enumera casualmente la siguiente trama de resultados, sin explicación alguna sobre cómo se produjo ( nótese que los datos de este gráfico son irrelevantes para el ejercicio anterior, y provienen de un ejemplo de libro anterior ):
Y eso es todo. Ni siquiera enumera una fórmula o función objetivo para calcular la distancia de Mahalanobis, que he tenido que buscar en la Wikipedia.
Aparte de eso, el ejercicio no menciona desviación estándar Así que los dos resultados destacados que obtuve de stats.stackexchange
no sirven para nada ( esta pregunta y también este ).
Estoy frustrado porque se supone que esto es Exercise 2
que debería significar "fácil" e "introductorio", y debería requerir una descripción y un esfuerzo mínimos para resolverlo, pero aquí me quedo perplejo.
¿Alguien conoce algún algoritmo que haga esto, relevante para que sepamos de antemano que los puntos forman clusters de $size>10$ ? Cualquier ayuda o indicación hacia la dirección correcta sería muy apreciada. Mis primeros pensamientos fueron describir la aplicación de k-means
o DBSCAN
pero estas son técnicas de clustering reales, y el ejercicio pide sólo la detección de valores atípicos sin clustering.