9 votos

Bondad de ajuste para datos discretos: mejor enfoque

Los datos: Para los fines de esta cuestión y la comunicación, podemos asumir que los datos se parece a rnbinom(1000,size=0.1,prob=0.01) en R, lo que genera una muestra aleatoria de 1.000 observaciones de una distribución binomial negativa (con size=0.1 y la probabilidad de éxito prob=0.01). Esta es la parametrización donde la variable aleatoria que representa el número de fracasos antes de size número de éxitos. La cola es larga, y de 1.000 observaciones no es una gran cantidad de datos.

El problema: Me ha dado algunos datos (entero {1,2,....}) [ver arriba] (de 1.500 puntos de datos) y pidió a encontrar el "mejor ajuste" de la distribución y de las estimaciones de los parámetros. Sé nada acerca de los datos. Soy consciente de que esta no es una muestra muy grande de datos con una larga cola. Más datos es una posibilidad.

Lo que he hecho: Me han considerado el uso de una prueba de razón de verosimilitud mediante el ajuste de las dos distribuciones diferentes a los datos, pero no creo que esto se aplica (como en, no puedo determinar las críticas de los valores de p) a menos que las dos distribuciones son anidados...

Yo consideraba entonces que mediante el test de Kolmogorov-Smirnov (ajustado para datos discretos), pero, en R de todos modos, se quejó de que no podía calcular un valor de p para "los datos con los lazos".

¿Cuál es la mejor manera de ir sobre la realización de pruebas/determinar el ajuste de diferentes distribuciones en este contexto? Aquí están algunas otras cosas que he considerado:

  1. Pedir (mucho) más datos. Pero esta ayuda? Voy a ser capaz de utilizar de forma asintótica resultados, por ejemplo?
  2. Considere algunas de bootstrap/re-muestreo/monte-carlo esquema? Si es así, hay un estándar de referencia que se puede/debe leer para aprender cómo hacer esto correctamente? Gracias

7voto

AusTravel Puntos 6

Si he entendido bien su pregunta, usted sólo necesita ajustar los datos a la distribución. En este caso, se puede utilizar una de las funciones en R paquetes, tales como fitdistr de MASS paquete, que utiliza la estimación de máxima verosimilitud (MLE) y soporta distribuciones discretas, incluyendo binomial y de Poisson.

Luego, como segundo paso, sería necesario realizar una (o más) de bondad de ajuste (GoF) pruebas para validar los resultados. Prueba de Kolmogorov-Smirnov, Anderson-Darling y (AFAIK) Lilliefors pruebas de todos no se aplica a distribuciones discretas. Sin embargo, afortunadamente, de la chi-cuadrado de GoF de prueba es aplicable a las continuas y distribuciones discretas y en R es una cuestión de llamar a stats::chisq.test() función.

Como alternativa, ya que tus datos representa una distribución discreta, puede utilizar vcd paquete y su función goodfit(). Esta función puede ser utilizado como un reemplazo para el estándar de GoF de prueba chisq.test()o, mejor aún, como un completo flujo de trabajo (ajuste de la distribución y GoF pruebas). Para el flujo de trabajo completo. opción, sólo tiene que utilizar la instalación predeterminada y no se especifica parámetros par (puede especificar size, si type = "nbinomial"). Los parámetros se calcula, utilizando máxima verosimilitud o mínimo de la chi-cuadrado (usted puede seleccionar el método). Los resultados pueden ser obtenidos llamando summary() función.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X