3 votos

¿Cómo se maneja una distribución normal con picos en cada extremo?

Esta pregunta puede parecer bastante impar, pero la siguiente explicación debería hacerla un poco más comprensible.

Trabajo en el análisis de las tendencias poblacionales de las aves. En nuestro equipo, trabajamos con un índice de tendencia simple, que se calcula como

$$\frac{\rho_t - \rho_{t+1}}{\rho_t + \rho_{t+1}} = \frac{(\mbox{density at time }t) - (\mbox{density at time }t+1)}{(\mbox{density at time t })+ (\mbox{density at time }t+1)}$$

Cuando el tamaño de la población no cambia, el valor del índice es $0$ . Cuando la población disminuye, el índice es negativo; cuando la especie se extingue, el valor del índice es $-1$ . Una población creciente arroja valores de índice positivos, con el extremo de $1$ cuando la especie coloniza una zona anteriormente deshabitada. Calculamos este índice para un gran número de parcelas de seguimiento. En el caso de las especies abundantes, los valores del índice de todas las parcelas dan lugar a una bonita curva más o menos acampanada que resulta conveniente para el análisis posterior. Sin embargo, en el caso de las especies menos abundantes, el número de parcelas en las que ha desaparecido y el número de parcelas recién colonizadas puede ser grande, lo que da lugar a una curva trimodal con modos en $-1$ , $0$ y $1$ . Cuanto más rara sea la especie, más altos serán los picos en $-1$ (extinción) y $+1$ (colonización) y el más llano se queda con la protuberancia en el centro. Los análisis de estos datos (por ejemplo, en diversos tipos de análisis de regresión) son difíciles, ya que no conozco una distribución estadística que pueda describirlos.

Sé que no es una pregunta muy precisa que pueda responderse fácilmente, pero agradecería cualquier consejo sobre cómo tratar los datos de esta manera o cómo calcular un índice de tendencia más "amigable" para dos puntos en el tiempo.

4voto

Nick Cox Puntos 22819

Sospecho que el problema aquí gira en torno a la sensación de que la distribución debería ser normal (gaussiana), o más cercana a ella. Pero, ¿por qué precisamente? En ninguna parte de la regresión (por ejemplo) se supone que las distribuciones marginales, las distribuciones de cualquiera de las variables de entrada, sean normales.

El índice es lo que es: parece bien definido y natural y fácil de pensar para la gente de su campo y eso es realmente positivo. El énfasis debe ponerse en adaptar cualquier método de análisis para respetar la forma en que se comporta, no en cambiar los datos en previsión de que tengan una forma o distribución equivocada.

Por ejemplo, déjame adivinar que podrías intentar modelar este índice como una función de otras variables. Entonces es importante que cualquier modelo no prediga valores imposibles, fuera de $[-1,1]$ . Para ello (índice + 1)/2 refunde el rango a $[0,1]$ y entonces se pueden aplicar modelos logit de un tipo apropiado. (En la práctica, eso significa un tipo especial de modelo lineal generalizado que admite el enlace logit, la familia binomial [sic] y errores estándar robustos (Huber-White)).

0voto

Ludwi Puntos 188

Si sólo necesita una distribución para describir sus datos, puede utilizar una mezcla de dos deltas y una distribución normal, o posiblemente una normal truncada o circular normal distribución.

$$\pi_{-1} \delta(x + 1) + \pi_0 \mathcal{N}(x; 0, \sigma^2) + \pi_1 \delta(x - 1)$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X