Tengo una idea de usar la conversión ECDF de los datos a su distribución uniforme de tamaños de muestra iguales. Entonces, digamos que para 1000 piezas de datos, cada valor debería correlacionar más o menos con un valor representativo de .1%, si un valor se repite, ese valor repetido se traduce en otro correlacionado 1/1000%.
Por lo tanto, si el número 2 aparece 2 veces de 1000 entradas.
El % general de ese valor es .2%
Sin embargo, cualquier valor que fuera antes, digamos 1, que aparecía una vez sería .1%.
Entonces 1 - se mapea a .1% y 2 - se mapea a .3% (es decir, 2 conteos de 2 de 1000 = .2%, se suman los valores anteriores para la función de distribución acumulativa. es decir .1% y .2% = .3%)
También tengo una fórmula que señala las distribuciones sesgadas al probar la media de la distribución convertida ECDF para un error máximo de .275 de la media de .5. Si es así, hacemos una comprobación de frecuencia en el conjunto de datos para el valor mediano, y si la frecuencia es >50% de los valores, entonces tratamos la distribución de manera diferente. No queremos que el 0% tenga un valor alto.
En cambio, eliminamos todos los 0 del listado, convertimos a una calificación ECDF. Luego volvemos a agregar los 0. De esa forma normalizamos la parte final de la distribución sesgada.
Entonces, ¿esto funcionaría para comparar conjuntos de datos variables entre sí en una escala aditiva al normalizarlos de esta manera?