24 votos

¿Por qué exactamente la regresión beta no puede tratar con 0s y 1s en la variable de respuesta?

La regresión beta (es decir, GLM con distribución beta y normalmente la función de enlace logit) suele recomendarse para tratar con variables dependientes aka respuesta que toman valores entre 0 y 1, como fracciones, proporciones o probabilidades: Regresión para un resultado (ratio o fracción) entre 0 y 1 .

Sin embargo, siempre se afirma que la regresión beta no puede utilizarse en cuanto la variable de respuesta es igual a 0 o 1 al menos una vez. Si es así, hay que utilizar un modelo beta cero/uno-inflado, o bien realizar alguna transformación de la respuesta, etc: Regresión beta de datos proporcionales que incluyen 1 y 0 .

Mi pregunta es: ¿qué propiedad de la distribución beta impide que la regresión beta trate con 0 y 1 exactos, y por qué?

Supongo que es que $0$ y $1$ no se encuentran en el soporte de la distribución beta. Pero para todos los parámetros de forma $\alpha>1$ y $\beta>1$ tanto cero como uno son en el soporte de la distribución beta, es sólo para parámetros de forma más pequeños que la distribución va a infinito en uno o ambos lados. Y quizá los datos de la muestra sean tales que $\alpha$ y $\beta$ proporcionando el mejor ajuste ambos resultarían estar por encima de $1$ .

¿Significa esto que en algunos casos uno podría utilizar de hecho la regresión beta incluso con ceros/ones?

Por supuesto, incluso cuando 0 y 1 están en el soporte de la distribución beta, la probabilidad de observar exactamente 0 o 1 es cero. Pero también lo es la probabilidad de observar cualquier otro conjunto contable de valores, así que esto no puede ser un problema, ¿verdad? (Cf. este comentario por @Glen_b).

$\hskip{8em}$beta distribution

En el contexto de la regresión beta, la distribución beta se parametriza de forma diferente, pero con $\phi=\alpha+\beta>2$ debe seguir estando bien definida en $[0,1]$ para todos $\mu$ .

enter image description here

21voto

olarva Puntos 716

Dado que la loglikelihood contiene tanto $\log(x)$ y $\log(1-x)$ que son ilimitados cuando $x=0$ o $x=1$ . Véase la ecuación (4) de Smithson & Verkuilen, " ¿Un exprimidor de limones mejor? Regresión de máxima verosimilitud con variables dependientes distribuidas en beta "(enlace directo a PDF ).

2voto

samjudson Puntos 27483

Además de que la razón proviene en la práctica de la presencia de $log(x)$ y $log(1-x)$ En este sentido, intentaré complementar la respuesta a la pregunta tratando de enmarcar la razón subyacente por la que esto ocurre.

De hecho, la distribución beta "se utiliza a menudo para describir la distribución de un valor de probabilidad" ( wikipedia ). Es la distribución de las posibles tendencias $p$ de una distribución binomial, conociendo la observación de $N$ extracciones binarias independientes de una variable aleatoria.

Como resultado, en mi comprensión de la regresión beta, 0s y 1s corresponderían intuitivamente a resultados seguros (infinitos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X