Principiante preguntas:
Quiero probar si dos conjuntos de datos discretos provienen de la misma distribución. El test de Kolmogorov-Smirnov fue sugerido a mí.
Conover (Prácticas Estadísticas no paramétricas, 3d) parece decir que el test de Kolmogorov-Smirnov puede ser utilizado para este propósito, pero su comportamiento "conservador" con distribuciones discretas, y no estoy seguro de lo que quiere decir aquí.
DavidR del comentario en otra pregunta dice: "... Usted todavía puede hacer un nivel α test basado en el K-S de la estadística, pero usted tendrá que encontrar algún otro método para obtener el valor crítico, por ejemplo, mediante la simulación".
La versión de ks.de prueba() en la dgof paquete de R (artículo, cran) añade algunas funciones que no están presentes en la versión predeterminada de ks.de prueba() en las estadísticas de paquetes. Entre otras cosas, dgof::ks.la prueba incluye este parámetro:
simular.p.valor: una lógica que indica si se deben calcular los valores de p por La simulación de Monte Carlo, discretas de bondad de ajuste de las pruebas solamente.
Es el propósito de simular.p.valor=T para lograr lo que DavidR sugiere?
Incluso si lo es, no estoy seguro de si realmente se puede utilizar dgof::ks.prueba para una prueba de dos muestras. Parece que sólo proporciona una prueba de dos muestras de una distribución continua:
Y si es numérico, una prueba de dos muestras de la hipótesis nula de que x e y fueron extraídas de la misma distribución continua que se realiza.
Alternativamente, y puede ser una cadena de caracteres de nombres continua (acumulativa) función de distribución (o de una función), o un ecdf función (o un objeto de la clase stepfun), dando una distribución discreta. En estos casos, una prueba de la muestra se lleva a cabo de la nula de que el función de distribución que genera x es la distribución y ....
(Los detalles del fondo: Estrictamente hablando, mi subyacente a las distribuciones continuas, sino que los datos tienden a estar muy cerca de un puñado de puntos. Cada punto es el resultado de una simulación, y es una media de 10 o 20 números reales entre -1 y 1. Por el final de la simulación, los números son casi siempre muy cerca de .9 o -.9. Por lo tanto los medios agrupación en torno a unos valores, y estoy tratarlos como discretos. La simulación es complejo, y no tengo ninguna razón para pensar que los datos siguen una bien conocida la distribución.)
Asesoramiento? Gracias!