3 votos

¿Cómo se puede saber si un aumento anual de la población es estadísticamente significativo?

Tengo datos diarios de dos años que consisten en el "número de avistamientos" cada día. ¿Hay alguna forma de comprobar si los datos del año 2 son "significativamente" superiores a los del primer año?

Conozco el número medio por día para cada año, así como la desviación típica por año. Sin embargo, los datos no parecen tener una distribución normal.

3voto

Nick Cox Puntos 22819

Esto no es tan sencillo como cabría esperar.

En particular, es poco probable que los datos diarios de un mismo año sean independientes entre sí. Norma $t$ -las rutinas de prueba no tienen en cuenta esa dependencia, por lo que la sugerencia de @Behacad en un comentario parece obviar una dificultad importante. Usted podría hacer el cálculo y su software puede no quejarse, pero el $P$ -los valores y los resultados de significación podrían estar muy alejados.

Que los datos sean normales es menos crucial, por mucho que los textos elementales se obsesionen a menudo con ello. Pero dependiendo de las propiedades de los recuentos, una distribución de Poisson o binomial negativa u otra distribución discreta puede ser más apropiada. En esencia, se necesita un modelo estocástico de series temporales para los datos antes de poder formular este problema correctamente o, como mínimo, utilizar autocorrelaciones para corregir el problema. $t$ - u otras pruebas.

Por otra parte, trazar los datos y hacer un simple cálculo descriptivo puede decirle tanto sobre los datos como realmente necesita. Si hay una tendencia subyacente, entonces un año es una subdivisión temporal arbitraria de cualquier manera, independientemente de que esté bien definida como unidad de calendario. Por otro lado, si el "número de avistamientos" es algo biológico, los años pueden ser unidades más naturales, sobre todo si la mayor parte de la actividad tiene lugar en un verano del hemisferio norte, pero entonces es probable que la estacionalidad figure en el modelo de series temporales que usted necesitaría idealmente.

En esencia, la "significación estadística" no cubre todas las preguntas del tipo "¿Debo considerar este cambio como notable o grande?". Sólo tiene sentido cuando se puede postular un modelo probabilístico o estocástico para los datos que permita realizar el cálculo de forma válida.

Los textos o cursos introductorios rara vez parecen comentar este problema común. Tampoco sería una solución cambiar el problema a algo como Wilcoxon-Mann-Whitney, ya que la independencia también es un supuesto para esas pruebas. Box, Hunter, Hunter Estadísticas para experimentadores de Wiley (cualquier edición) y Rupert G. Miller Más allá del ANOVA Wiley, reimpreso por CRC Press son buenos textos que hablan sin rodeos de los problemas causados por la dependencia.

Por otra parte, el recuento de organismos (si es que se trata de eso) es sin duda un problema biológico estándar. Es probable que este problema se trate en una bibliografía metodológica que no me resulta muy familiar.

1voto

Owen Fraser-Green Puntos 642

Como señaló @Nick Cox, se podría construir un modelo estocástico para los dos años completos de datos (730 valores), dado que no hay muchos valores perdidos o ceros. El modelo podría incluir alguna estructura ARIMA y/o posiblemente alguna estructura determinista para tratar efectos fijos como efectos de día de la semana (etc.), quizás efectos mensuales. Yo consideraría sin duda la posibilidad de ajustar cualquiera de los 730 valores para detectar actividades inusuales, es decir, pulsos de 1 vez, con el fin de que el análisis posterior sea más sólido. Esto puede hacerse de forma sencilla o sofisticada, utilizando los esquemas de detección de intervención que yo prefiero. Ahora, armado con un modelo XARMAX razonable en el que las X son las variables deterministas necesarias, simplemente añadiría una nueva variable: 365 0 codificados y 365 1 codificados. La estimación del modelo final arrojaría una prueba de significación para esta nueva variable, que es una prueba de la hipótesis de igualdad de los dos años. Pero esa es sólo mi opinión...

Se podrían utilizar valores mensuales, pero con un recuento de 24 , no estoy seguro de que esto sea siempre apropiado, pero valdría la pena intentarlo. Si los resultados no demuestran nada, siempre se puede enviar un artículo al "Journal of Negative Results".

0voto

sd2k9 Puntos 21

Soy un Stata por lo que se remitirá a @Nick Cox.

Si tuvieras datos mensuales, sería útil algo como series temporales interrumpidas +/- regresión Prais-Winsten / Cochrane-Orcutt si encuentras una autocorrelación significativa. Los datos diarios suelen estar muy desordenados, y ese enfoque podría fallar.

La agregación de datos mensuales o incluso semanales (1) desecharía una gran cantidad de información y sería difícil de justificar... pero (2) probablemente daría un resultado más fácil de modelizar en términos de distribución (la distribución podría seguir siendo datos de recuento pero con menos ceros) y yo asumiría autocorrelación.
La revisión estándar puede consultarse aquí Wagner: Análisis de regresión segmentada

No creo que esto sea lo que buscas, pero te dará más información: si hay una tendencia secular, si está cambiando, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X