Los datos:
Para los fines de esta cuestión y la comunicación, podemos asumir que los datos se parece a rnbinom(1000,size=0.1,prob=0.01)
en R, lo que genera una muestra aleatoria de 1.000 observaciones de una distribución binomial negativa (con size=0.1
y la probabilidad de éxito prob=0.01
). Esta es la parametrización donde la variable aleatoria que representa el número de fracasos antes de size
número de éxitos. La cola es larga, y de 1.000 observaciones no es una gran cantidad de datos.
El problema: Me ha dado algunos datos (entero {1,2,....}) [ver arriba] (de 1.500 puntos de datos) y pidió a encontrar el "mejor ajuste" de la distribución y de las estimaciones de los parámetros. Sé nada acerca de los datos. Soy consciente de que esta no es una muestra muy grande de datos con una larga cola. Más datos es una posibilidad.
Lo que he hecho: Me han considerado el uso de una prueba de razón de verosimilitud mediante el ajuste de las dos distribuciones diferentes a los datos, pero no creo que esto se aplica (como en, no puedo determinar las críticas de los valores de p) a menos que las dos distribuciones son anidados...
Yo consideraba entonces que mediante el test de Kolmogorov-Smirnov (ajustado para datos discretos), pero, en R de todos modos, se quejó de que no podía calcular un valor de p para "los datos con los lazos".
¿Cuál es la mejor manera de ir sobre la realización de pruebas/determinar el ajuste de diferentes distribuciones en este contexto? Aquí están algunas otras cosas que he considerado:
- Pedir (mucho) más datos. Pero esta ayuda? Voy a ser capaz de utilizar de forma asintótica resultados, por ejemplo?
- Considere algunas de bootstrap/re-muestreo/monte-carlo esquema? Si es así, hay un estándar de referencia que se puede/debe leer para aprender cómo hacer esto correctamente? Gracias