Tengo una ECDF de valores que no siguen una distribución determinada (pensaron que eran ligeramente normales, no lo son). Y deseo determinar si un nuevo valor observado es significativo o un valor atípico o no. ¿Cómo puedo hacerlo?
Por ejemplo, tengo la siguiente distribución:
Value % of Observations
...
-4 3%
-3 3.5%
-2 4%
-1 6%
0 12%
1 5%
2 5%
3 4%
4 1%
...
Con las diferentes distribuciones se fijan unos límites o umbrales determinados para señalar un valor atípico, por ejemplo, 3 $\sigma$ para una distribución normal, pero eso no ayuda a clasificar los valores ordinarios como un $2$ en el caso anterior. Sólo el 5% de los valores observados son $2$ pero sigue siendo bastante común en relación con el resto.
¿Existe alguna forma de cuantificar la "exageración" de un valor? Por ejemplo, si el valor $10$ se observó podría decir que es mayor que $99\%$ de valores que posiblemente lo conviertan en un valor atípico. Sin embargo, esto no funcionará para los valores no atípicos, por ejemplo, el valor $0$ es mayor que $\approx50\%$ de todas las observaciones pero esto no me dice que $0$ es el valor más común.
Nota: No estoy interesado en ajustar una distribución particular ni nada por el estilo. Sólo tengo un gran conjunto de datos para el que se puede evaluar una ECDF y quiero saber si un nuevo valor observado encaja en esta típica o es un valor extremo.