1 votos

¿Cómo se construye el conjunto de entrenamiento para la detección de anomalías?

Estoy utilizando un cálculo de K-Nearest-Neighbor como parte de un método de detección de valores atípicos, y estoy intentando decidir cómo construir el conjunto de datos de entrenamiento en el que basar mi cálculo de KNN para las observaciones posteriores. Tengo demasiadas observaciones para incluirlas todas de manera eficiente en mi conjunto de entrenamiento, por lo que necesito decidir cómo seleccionar el subconjunto de observaciones para incluir en el conjunto de entrenamiento. ¿Cuál es la mejor manera de hacer esta selección? ¿Una muestra aleatoria? ¿O debería intentar seleccionar de alguna manera un subconjunto de las observaciones totales que creo que son más "normales" que otras? ¿Sería este un mejor enfoque si estoy utilizando el cálculo KNN como método de detección de valores atípicos, o podría sesgar mis resultados?

0voto

Dipstick Puntos 4869
  • No hay mucha diferencia si se utiliza $k$ -NN u otro algoritmo para la detección de anomalías, la forma de construir el conjunto de entrenamiento sería la misma. La configuración habitual de la detección de anomalías consiste en poner los datos "típicos" en el conjunto de entrenamiento y una mezcla de datos "típicos" y anomalías (etiquetadas) en el conjunto de prueba. Basándose en el conjunto de entrenamiento, el algoritmo aprende la distribución de los datos "típicos", de modo que puede marcar como anomalías los datos que son poco probables según esta distribución.
  • Así que si tiene una forma razonable de encontrar muestras "normales", utilícela para dividir los datos. Si no lo tiene, y marcó algunos de los datos como "normales" y "anomalías" basándose en alguna heurística pobre, esto podría influir en sus resultados y hacer que el algoritmo aprenda más bien su heurística que las anomalías reales.
  • La forma de submuestreo de los datos dependerá de cómo se hayan recogido los datos. Por ejemplo, si la muestra ya está sesgada, el submuestreo aleatorio no cambiaría el sesgo. Si tienes una muestra aleatoria y representativa, puedes simplemente submuestrear al azar. Si los datos están estratificados, hay que tener en cuenta la estratificación al realizar el submuestreo.
  • El tamaño de los datos puede ser un problema cuando se utiliza $k$ -NN, ¿has considerado usar otros algoritmos de detección de anomalías ¿que se escalan mejor?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X