7 votos

¿Puede un intervalo de predicción matemáticamente sólido tener un límite inferior negativo?

He utilizado R para formar un intervalo de predicción del 95% para el número de especies endémicas en una isla.
Mi límite inferior es negativo, ¿es matemáticamente correcto?

En el modelo lineal utilizado en el intervalo de predicción, los datos utilizados son Área Superficie de la isla, hectáreas DiscSC Distancia de Santa Cruz, kilómetros Elevación Elevación del punto más alto en metros y se codifica así:

selected.model <- lm(ES ~ Area + Elevation + DistSC + I(Elevation^2) 
                    + (Elevation:DistSC) + (A‌​rea:Elevation)) 

y se realizó una regresión por pasos para encontrar este "mejor" modelo

No sé exactamente cómo funciona un intervalo de predicción. Sólo quiero asegurarme de que está bien. Obviamente un número negativo de especies es incorrecto, pero sé que tiene en cuenta la incertidumbre de la media así como la dispersión de los datos.

19voto

icelava Puntos 548

Las matemáticas son agnósticas a la realidad. Así que su banda inferior de predicción negativa puede ser ciertamente matemáticamente sonido.

Sin embargo, yo diría que esto es un buen indicio de que se están utilizando las matemáticas equivocadas, por ejemplo, los mínimos cuadrados ordinarios (que suponen una distribución normal de los errores) con datos de recuento (donde una distribución normal no tiene sentido). Yo sugeriría utilizar la regresión de Poisson o algún método similar que sea más adecuado para los datos de recuento.

14voto

alexs77 Puntos 36

Me sugiere que no ha utilizado ningún enfoque analítico con una transformación adecuada del resultado. Con los datos de recuento, por ejemplo, los modelos lineales populares (regresión de Poisson o regresión binomial negativa, en particular) modelan el logaritmo del proceso como una función lineal de los predictores. Entonces, cualquier valor predicho resultante de dicho modelo tendría que ser exponencial y, por tanto, positivo.

Del mismo modo, cuando se utiliza el predict.glm con la función se.fit ajustado a TRUE para estos modelos, se calculan intervalos de predicción simétricos para los recuentos en el escala logarítmica . La reexponenciación de esos valores garantiza que se tengan intervalos que no incluyan el 0. Observará que las predicciones exponenciadas son las mismas que obtendría al establecer type='response' en la función de predicción. Sin embargo, pedir ambos type='response', se.fit=TRUE confundirá a R ya que la transformación de enlace del GLM significa que tendrá intervalos no simétricos (el SE de FIT se calcula en la escala de resultados transformada).

Existen modelos aditivos de recuento, al igual que existen modelos aditivos de riesgo para puntos finales binarios, pero creo que los resultados pueden ser difíciles de interpretar y se comportan de forma insostenible para predicciones cercanas a los valores límite del soporte (0 para datos de recuento). Como tal, yo dudaría no sólo de sus predicciones negativas sino de todas las demás predicciones de su modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X