Tengo un conjunto de datos hidrológicos que contiene muchos valores repetidos (en mi caso, 0s), y quiero entender si ha habido una tendencia a través del tiempo. He aquí un ejemplo idealizado del aspecto de los datos:
# make sample data with linear increase
year <- seq(1, 51)
value <- seq(0, 500, 10)
# replace just over 50% of values with 0s
value[seq(1,51,2)] <- 0
plot(year, value)
Normalmente, utilizaría el método no paramétrico Prueba de Mann-Kendall para determinar si existe un cambio significativo a lo largo del tiempo, y la Estimador de la pendiente de Theil-Sen para determinar la pendiente de ese cambio.
En este caso, la prueba de Mann-Kendall rechaza la hipótesis nula de ausencia de cambios a lo largo del tiempo y tiene una tau positiva, interpretada como un aumento estadísticamente significativo a lo largo del tiempo. Sin embargo, el estimador de Theil-Sen arroja un valor de 0:
manken <- rkt::rkt(year, value)
manken$tau # Kendall tau = 0.235
manken$sl # p-value = 0.009
manken$B # Theil-Sen estimator = 0
Creo que esto ocurre porque el estimador Theil-Sen devuelve la mediana de la pendiente de todos los pares. Por lo tanto, siempre que haya >50% de puntos que tengan el mismo valor, la pendiente mediana (creo) siempre será igual a 0.
Pregunta: ¿Existen estimadores estadísticos de la pendiente más adecuados para datos con muchos valores repetidos?
Por si sirve de algo, un modelo lineal ( lm(value ~ year)
) también arroja una pendiente positiva significativa (p=0,001). Y lo mismo ocurre con la muy científica "prueba del globo ocular".
Edición 8/3/2020: Para mayor contexto, mi eje y real es el número de días con caudal cero al año. Así pues, este problema surge cuando hay un arroyo que fluye durante todo el año durante >50% de los años, pero que se seca durante parte o la totalidad de algunos años. Me gustaría saber si la "sequedad" (frecuencia/duración) está aumentando.