15 votos

Distribución por porcentaje de datos.

Tengo una pregunta acerca de la correcta distribución a utilizar para crear un modelo con mis datos. He llevado a cabo un inventario forestal con 50 parcelas, cada parcela mide 20m x 50m. Para cada parcela, calculé el porcentaje de las copas de los árboles que los tonos de la tierra. Cada parcela tiene un valor, en porcentaje, para la cobertura del dosel. Los porcentajes en el rango de 0 a 0.95. Estoy haciendo un modelo del porcentaje de cobertura de árboles (Y variable), con una matriz de independiente X variables basados en imágenes de satélite y datos ambientales.

No estoy seguro de si debo usar una distribución binomial, ya que una variable aleatoria binomial es la suma de n ensayos independientes (es decir, variables aleatorias de Bernoulli). El porcentaje de los valores de la suma de los juicios; ellos son los porcentajes reales. Debo usar gamma, incluso a pesar de que no tiene un límite superior? Debo convertir los porcentajes de un número entero y el uso de Poisson, ya que se cuenta? Debo seguir con Gaussiano? No he encontrado muchos ejemplos en la literatura o en los libros de texto que tratan de modelo porcentajes de esta manera. Cualquier sugerencias o ideas son apreciados.


Gracias por sus respuestas. De hecho, la distribución beta es exactamente lo que necesito y es discutido a fondo en este artículo:

El siguiente artículo aborda una buena manera de transformar una beta distribuida variable de respuesta cuando se incluye verdadero 0 y/o 1 en el rango de porcentajes:

7voto

Sean Hanley Puntos 2428

Tienes razón en que la distribución binomial es discretas proporciones que surgen a partir del número de "éxitos" de un número finito de ensayos de Bernoulli, y que esto hace que la distribución inadecuada de los datos. Usted debe utilizar la distribución Gamma, dividido por la suma de que la Gamma más otro Gamma. Es decir, usted debe utilizar la distribución beta para el modelo continuo de proporciones.

Tengo un ejemplo de la beta de la regresión en mi respuesta aquí: Quitar el efecto del factor en continuo de la proporción de datos utilizando la regresión de R.

Actualización:
@DimitriyV.Masterov plantea el punto bueno que usted menciona sus datos han $0$'s, pero la distribución beta sólo está soportado en $(0,\ 1)$. Esto provoca la pregunta de ¿qué se debe hacer con esos valores. Algunas ideas que pueden extraerse de este excelente CV hilo: Żcómo una pequeña cantidad debe añadirse a x a evitar tomar el registro de 0?

1voto

Chris Pick Puntos 76

Los valores de porcentaje representan las tasas de independiente del número de muestras. Te gustaría utilizar estos porcentajes como variable dependiente y las imágenes de satélite como una variable explicativa. Sin embargo, yo creo que no todas las 50 parcelas en el inventario similar número de muestras. Un modelo adecuado que se relaciona con estos porcentajes de otras variables que debe tener en cuenta esta incertidumbre en la medición, dando más peso a las parcelas con alto muestras.

Además, la distribución de error en el caso de los datos es claramente binomial. La varianza de error es más pequeño en los límites, este es capturado por una distribución binomial.

Todo esto me parece como el arquetípico ejemplo de uso de un GLM con el binomio de error del modelo.

"Las estadísticas: Una Introducción con R", Capítulo 14 Crawley se describe exactamente de este tema y de cómo analizar con R.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X