5 votos

Modelos lineales generalizados con proporciones continuas

Estamos teniendo problemas para ejecutar modelos lineales generalizados con datos proporcionales.

Por ejemplo, tenemos datos como este:

Species  Trait(Diet)   IndividualsinForest   TotalIndividuals   ProportionForest 
X        Insectivore   300.5                 500.7              0.60             
Y        Frugivore      32.3                  47.6              0.67              

Y queremos determinar si el rasgo influye en la proporción de individuos en el bosque. Note que los números individuales son continuos (tienen decimales), porque los conteos originales han sido ajustados a DISTANCIA.

La mayoría de los modelos que hemos visto en R tratan con datos de conteo. Por ejemplo, véase M.J. Crawley Estadísticas: Una introducción usando R Capítulo 10: Análisis de los datos de las proporciones ( pdf ).

Estos modelos utilizan el cbind para unir el número de éxitos y el número de fracasos y luego relacionarlo con el predictor:

model.1 <- glm (cbind(IndividualsinForest, (TotalIndividuals-IndividualsinForest))~Diet, 
                family=binomial)

Sin embargo, parece que hay dos problemas al usar este enfoque para nuestra situación:

  1. Estamos usando glm en un cbind que combinaba vectores con valores continuos (punto decimal); no está claro si esto está permitido, aunque funciona en R. Hemos jugado a multiplicar todo por 1000 para deshacernos de los decimales, pero encontramos que los resultados cambian mucho con esta técnica (resultados muy diferentes si se multiplica por 10, por 100, por 1000)

  2. cbind ejecuta una regresión ponderada, como explicó Crawley. Esto significa que el modelo ponderará los datos de la Especie X, arriba, con 500,7 individuos totales más que los datos de la Especie Y, con 47,6 individuos.

Pero conceptualmente, no queremos una regresión ponderada, porque queremos tratar a todas las especies por igual: los datos de una especie rara son tan importantes para nosotros como los datos de una especie abundante. La especie es la unidad de replicación aquí.

Tratamos de forzar una regresión no ponderada usando el mismo código, añadiendo columnas a los datos, por ejemplo,

Species   ProportionForest   PInForest   PTotal 
X         .60                60          100 
Y         .67                67          100 

Y luego correr:

model.3 <- glm(cbind(PInForest, (PTotal-PInForest))~Diet, family=binomial)

Pero los análisis resultantes están muy dispersos, y ejecutarlos con family=quasibinomial da resultados extraños (pruebas completamente insensibles, con grandes valores p para diferencias bastante claras).

Por lo tanto, nuestra estrategia analítica actual es recurrir a la transformación de la proporción en arcoseno y luego ejecutar un modelo lineal general. Pero preferiríamos ejecutar un modelo lineal generalizado porque la transformación de arcoseno parece ser una reliquia de las viejas estadísticas precomputadoras.

¿Alguna idea?

6voto

Nick Cox Puntos 22819

Los modelos lineales generalizados de respuestas que son de proporciones continuas son bien conocidos en al menos algunas literaturas y bien soportados en al menos algunos programas informáticos. Dejaré a otros con experiencia en R para que comenten hasta qué punto y/o cuán bien están soportados por R.

Una reseña amistosa de miniatura es ofrecida por Baum en http://www.stata-journal.com/sjpdf.html?articlenum=st0147 aunque de uso más allá de la comunidad de Stata, este documento subraya que tales modelos están bien apoyados por Stata.

La literatura puede extenderse al menos hasta Wedderburn en 1974. http://biomet.oxfordjournals.org/content/61/3/439.full.pdf+html

y de lado para incluir una cuenta en el libro más avanzado de Wooldridge http://www.amazon.com/Econometric-Analysis-Cross-Section-Panel/dp/0262232588/

Si esto es lo que R llama "cuasibinomio" otra vez se lo dejo a otros que conocen bien a R.

Una alternativa es usar la regresión beta.

Estoy de acuerdo con la implicación de que la transformación de arcoseno, en el mejor de los casos, ofrece una solución parcial en este caso; es preferible tener un enfoque integrado en el que la modelización se centre en el respeto del rango de la variable de respuesta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X