Por ejemplo, tengo el siguiente gráfico, en el que el eje Y son los valores y el eje X es el índice del punto de datos.
Hay claramente dos lagunas en esta trama, y me pregunto cuál es la mejor manera de identificar estas dos lagunas.
Espero que el método pueda basarse en la estadística sin métodos de aprendizaje automático con regularizadores, porque no tendré un conjunto de datos de desarrollo para ajustar el peso de un regularizador.
La única manera que encontré puede funcionar es calcular la media y la varianza de los primeros cincuenta valores (supongamos que hay al menos la mitad de los valores están en la primera familia), y probar si los siguientes puntos son cinco desviaciones estándar de esta media. Este método funciona muy bien para identificar la segunda familia, pero el problema es que, como no sé cuántos miembros habrá aproximadamente en la segunda familia, es difícil calcular la media y la varianza de la segunda familia. Además, el número cinco parece ser muy arbitrario. (Una elección no arbitraria podría ser 1,96, que corresponde al 5% de la masa gaussiana y el 5% es más o menos una elección estándar de las pruebas de hipótesis, pero 1,96 no funciona).
¿Hay alguna sugerencia sobre los métodos para identificar dicha brecha?