Primero de todo me gustaría pedir disculpas por el vago título, yo no podía formular una mejor sólo ahora, por favor siéntase libre de modificar o consejo que me cambio el título para que se ajuste mejor el núcleo de la cuestión.
Ahora sobre la pregunta en sí, he estado trabajando en un software en el que he llegado a través de la idea de utilizar una distribución empírica para el muestreo, sin embargo, ahora que se implementa no estoy seguro de cómo interpretar todo esto. Permítanme describir lo que he hecho, y por qué:
Tengo un montón de cálculos para un conjunto de objetos, dando un resultado final. El resultado es, sin embargo, es muy ad-hoc. Así que para hacer algún sentido de la puntuación de un objeto en particular, lo que yo hago es hacer un gran número de (N = 1000), los cálculos de las puntuaciones de simulacro/valores generados de forma aleatoria, dando 1000 burlarse de las puntuaciones. La estimación empírica "distribución de la puntuación" para ese objeto en particular es entonces alcanzado por estos 1000 burlarse de valores de puntuación.
He implementado esta en Java (como el resto del software también está escrito en Java entorno) usando el Apache Commons biblioteca Matemática, en particular la EmpiricalDistImpl
de la clase. De acuerdo a la documentación de esta clase utiliza:
lo que equivale a la Variable del Kernel Con el método de suavizado Gaussiano: La digestión del archivo de entrada
- Pasa el archivo una vez para calcular min y max.
- Dividir el intervalo de min-max en binCount "grupos".
- Pase de nuevo el archivo de datos, computación en la papelera de la cuenta y univariante estadísticas (media, std dev.) para cada de las tolvas
- Dividir el intervalo (0,1) en subintervalos asociados con los depósitos, con la longitud de una bandeja de subinterval proporcional a su cuenta.
Ahora mi pregunta es, ¿tiene sentido el ejemplo de esta distribución con el fin de calcular algún tipo de un valor esperado? En otras palabras lo mucho que podía confiar en/basan en esta distribución? Podría yo por ejemplo dibujar la conclusión acerca de la importancia de la observación de un score $S$ mediante la comprobación de la distribución?
Me doy cuenta de que esto es quizás un poco ortodoxa manera de mirar un problema como este, pero creo que sería interesante para obtener un mejor agarre sobre el concepto de distribuciones empíricas, y cómo pueden/no pueden ser utilizados en el análisis.
Gracias de antemano,