2 votos

Kolmogorov-Smirnov de dos muestras de frecuencia cardíaca

Estoy acumulando una gran cantidad de signos vitales de pacientes del departamento de emergencias, y me gustaría evaluar si las diferentes características producen distribuciones significativamente diferentes.

Por ejemplo, para la frecuencia cardíaca tengo 888.424 mediciones (almacenadas en all_hr) para todos los pacientes y 321.357 mediciones para los pacientes geriátricos (almacenadas en g_hr). El resumen de las estadísticas da como resultado:

summary(all_hr$hr) 
Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
2.00   74.00   87.00   88.56  101.00  242.00 

summary(g_hr$hr)
Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
2.00   72.00   85.00   87.77  100.00  207.00 

Al trazar las ecdfs para estas muestras obtengo: ecdfs for all patients and geriatric patients

Estoy tratando de comprender cómo utilizar la función Kolgomorov-Smirnov ks.test() en R para esto:

ks.test(all_hr$hr,g_hr$hr,alternative="two.sided")

Two-sample Kolmogorov-Smirnov test

data:  all_hr$hr and g_hr$hr 
D = 0.0289, p-value < 2.2e-16
alternative hypothesis: two-sided 

Warning:
In ks.test(all_hr$hr, g_hr$hr, alternative = "two.sided") :
p-values will be approximate in the presence of ties

Por lo que entiendo esta prueba, ¿la hipótesis de que las muestras son de diferentes distribuciones es verdadera?

Ahora, también he intentado un enfoque similar, pero agrupando a los pacientes por salas de especialidades. Por ejemplo, aquí están las ecdfs de dos distribuciones de muestras extraídas al azar de 6.000 pacientes neurológicos y gastrointestinales: enter image description here

Sin embargo, al ejecutar ks.test en estas dos muestras, también obtengo el mismo resultado

ks.test(N.vs.hr.rs$hr,S.vs.hr.rs$hr,alternative="two.sided")

Two-sample Kolmogorov-Smirnov test

data:  N.vs.hr.rs$hr and S.vs.hr.rs$hr 
D = 0.6307, p-value < 2.2e-16
alternative hypothesis: two-sided 

Warninf:
In ks.test(N.vs.hr.rs$hr, S.vs.hr.rs$hr, alternative = "two.sided") :
p-values will be approximate in the presence of ties

Entonces, en resumen... ¿es esta prueba una forma válida de afirmar las diferencias en las distribuciones? ¿Y no debería tener problemas con el hecho de que dos gráficos de ecdf muy diferentes den los mismos resultados de ks.test?

4voto

Eero Puntos 1612

En el primer caso, ¿están los pacientes geriátricos en ambos conjuntos de datos? Si es así, eso afectará a los resultados, la suposición es que las 2 muestras son independientes entre sí y si tienes algunos valores de pacientes en ambos conjuntos de datos, eso hace que no sean independientes. Sería mejor comparar todos los pacientes que no sean geriátricos con los pacientes geriátricos.

Dicho esto, con más de 800 mil observaciones tendrá poder para encontrar diferencias que son muy pequeñas. Tus 2 resultados no son idénticos, fíjate en el valor de D, lo que ocurre es que con un tamaño de muestra tan elevado el valor p es esencialmente 0 (el < 2,2e-16 significa que es extremadamente pequeño y no merece la pena reducirlo más).

Así que, sí, la prueba KS es válida para encontrar diferencias en las distribuciones (si se tiene la independencia), pero con muestras tan grandes hay una gran diferencia entre la significación estadística (lo que informa la prueba) y la significación práctica o significativa (si la diferencia importa a nivel práctico).

1voto

user49779 Puntos 26

Las dos pruebas dieron el mismo resultado porque la función devuelve un límite inferior para el valor p de menos de 2.2e-16 . Las estadísticas de la prueba D es realmente diferente.

Sí, la nula es que las dos muestras se extraen de la misma distribución -> p < 2,2e-16 sugiere lo contrario.

Esta pregunta pertenece a stats.stackexchange

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X