30 votos

Regresión beta de datos de proporción que incluyen 1 y 0

Estoy tratando de producir un modelo para el cual tengo una variable de respuesta que es una proporción entre 0 y 1, esto incluye bastantes 0s y 1s pero también muchos valores en el medio. Estoy pensando en intentar una regresión beta. El paquete que he encontrado para R (betareg) sólo permite valores entre 0 y 1, pero sin incluir el 0 o el 1 en sí. He leído en otra parte que, en teoría, la distribución beta debería poder manejar valores de 0 o 1, pero no sé cómo manejar esto en R. He visto que algunas personas añaden 0,001 a los ceros y quitan 0,001 a los unos, pero no estoy seguro de que sea una buena idea.

Como alternativa, podría transformar logit la variable de respuesta y utilizar la regresión lineal. En este caso tengo el mismo problema con los 0 y 1 que no pueden ser transformados logitariamente.

1 votos

Conociendo la cuenta --no sólo las proporciones-- es crucial hagas lo que hagas. Pero una vez que se tienen los recuentos, el primer modelo que hay que considerar, aunque sólo sea un punto de partida, es la regresión logística.

0 votos

Bien, una beta está entre 0 y 1 ( casi seguramente ). Si los observa, debe utilizar un modelo que le dé la oportunidad de observar su muestra. Un par de respuestas parecen cubrir ese tipo de enfoque; yo empezaría por ellas.

26voto

joopmicroop Puntos 191

Se pueden utilizar modelos de regresión beta inflados a cero y/o a uno, que combinan la distribución beta con una distribución degenerada para asignar alguna probabilidad a 0 y 1 respectivamente. Para más detalles, consulte las siguientes referencias:

Ospina, R., & Ferrari, S. L. P. (2010). Distribuciones beta infladas. Statistical Papers, 51(1), 111-126. Ospina, R., & Ferrari, S. L. P. (2012). A general class of zero-or-one inflated beta regression models. Computational Statistics and Data Analysis, 56(6), 1609 - 1623.

Estos modelos son fáciles de implementar con el paquete gamlss para R.

0 votos

¿Tienes algún ejemplo de cómo implementarlos en R?

2 votos

@Ouistiti el zoib paquete lo hace fácilmente.

23voto

hellfur Puntos 33

La documentación de R betareg menciona que

si y también asume los extremos 0 y 1, una transformación útil en la práctica es (y * (n1) + 0,5) / n donde n es el tamaño de la muestra.

http://cran.r-project.org/web/packages/betareg/vignettes/betareg.pdf

Dan la referencia Smithson M, Verkuilen J (2006). "¿Un mejor exprimidor de limones? Regresión de máxima verosimilitud con variables dependientes distribuidas en beta". Psychological Methods, 11 (1), 54-71.

1 votos

¿Sería posible también fijar las observaciones del valor de la respuesta a un valor muy pequeño (por ejemplo, 0,00001) en lugar de un verdadero cero?

2voto

Psycho Bob Puntos 661

Compruebe lo siguiente, donde se menciona una transformación ad hoc maartenbuis.nl/presentaciones/berlin10.pdf en la diapositiva 17. También podría modelar 0 y 1 con dos regresiones logísticas separadas y luego utilizar la regresión Beta para los que no están en el límite.

1 votos

Esto también se menciona en la viñeta de betareg como el método de elección, véase el primer párrafo de la sección 2, página 3 : " $(y * (n 1) + 0.5)/n$ donde $n$ es el tamaño de la muestra"

2voto

andynormancx Puntos 234

El modelo beta es para una variable binaria que se modela como una distribución Bernoulli con probabilidad desconocida $p$ . El modelo beta calcula una probabilidad sobre $p$ que se distribuye en forma de beta.

Su variable es una proporción. Podría modelar la proporción como si tuviera una distribución beta con parámetros desconocidos $a, b$ . El modelo que se desea es la prioridad conjugada de la distribución beta, que calculará una probabilidad sobre $a, b$ .

Tendría que volver a derivar el modelo, pero si no recuerdo mal, para las proporciones $x_1, \dotsc, x_n$ devuelve tres parámetros de expectativa: $n$ el número de puntos, y si mi memoria es correcta $\sum_j[\psi(\sum_i x_i) - \psi(x_j)]$ y $\sum_j[\psi(\sum_i 1-x_i) - \psi(1-x_j)]$ . Estos son los parámetros de una distribución sobre los parámetros de su distribución beta, que modelan sus proporciones.

1 votos

Puede participar en este hilo de Meta. stats.meta.stackexchange.com/questions/5814/

1voto

JeremyDWill Puntos 2181

¿No se hace una transformación logit para que la variable vaya de menos infinito a más infinito? No estoy seguro de si los datos que tienen 0 y 1 deben ser un problema. ¿Muestra eso algún mensaje de error? Por cierto, si sólo tienes proporciones tu análisis siempre saldrá mal. Tienes que usar weight=argument a glm con el número de casos.

Si nada funciona, puede utilizar una división de la mediana o un cuartil o cualquier punto de corte que considere apropiado para dividir la VD en varias categorías y luego ejecutar una regresión logística ordinal en su lugar. Eso puede funcionar. Pruebe estas cosas.

Personalmente no creo que sumar 0,001 a los ceros y restar 0,001 a los unos sea una idea demasiado mala, pero tiene algunos problemas que se discutirán más adelante. Piensa, ¿por qué no sumas y restas 0,000000001 (o incluso más de los decimales)? ¡¡Eso representará mejor el 0 y el 1!! Puede parecerte que no hay mucha diferencia. Pero en realidad sí la tiene.

Veamos lo siguiente:

> #odds when 0 is replaced by 0.00000001

> 0.00000001/(1-0.00000001)
[1] 1e-08
> log(0.00000001/(1-0.00000001))
[1] -18.42068

> #odds when 1 is replaced by (1-0.00000001):

> (1-0.00000001)/(1-(1-0.00000001))
[1] 1e+08
> log((1-0.00000001)/(1-(1-0.00000001)))
[1] 18.42068

> #odds when 0 is replaced by 0.001

> 0.001/(1-0.001)
[1] 0.001001001
> log(0.001/(1-0.001))
[1] -6.906755

> #odds when 1 is replaced by (1-0.001):

> (1-0.001)/(1-(1-0.001))
[1] 999
> log((1-0.001)/(1-(1-0.001)))
[1] 6.906755

Así que, como ves, tienes que mantener las probabilidades tan cerca como (0/1) y (1/0). Esperas que las probabilidades logarítmicas oscilen entre menos infinito y más infinito. Por lo tanto, para sumar o restar, hay que elegir hasta un decimal realmente largo, para que las probabilidades logarítmicas se acerquen al infinito (¡o sean muy grandes!). La medida que consideres suficientemente grande, depende únicamente de ti.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X