Processing math: 100%

24 votos

¿Por qué exactamente la regresión beta no puede tratar con 0s y 1s en la variable de respuesta?

La regresión beta (es decir, GLM con distribución beta y normalmente la función de enlace logit) suele recomendarse para tratar con variables dependientes aka respuesta que toman valores entre 0 y 1, como fracciones, proporciones o probabilidades: Regresión para un resultado (ratio o fracción) entre 0 y 1 .

Sin embargo, siempre se afirma que la regresión beta no puede utilizarse en cuanto la variable de respuesta es igual a 0 o 1 al menos una vez. Si es así, hay que utilizar un modelo beta cero/uno-inflado, o bien realizar alguna transformación de la respuesta, etc: Regresión beta de datos proporcionales que incluyen 1 y 0 .

Mi pregunta es: ¿qué propiedad de la distribución beta impide que la regresión beta trate con 0 y 1 exactos, y por qué?

Supongo que es que 0 y 1 no se encuentran en el soporte de la distribución beta. Pero para todos los parámetros de forma α>1 y β>1 tanto cero como uno son en el soporte de la distribución beta, es sólo para parámetros de forma más pequeños que la distribución va a infinito en uno o ambos lados. Y quizá los datos de la muestra sean tales que α y β proporcionando el mejor ajuste ambos resultarían estar por encima de 1 .

¿Significa esto que en algunos casos uno podría utilizar de hecho la regresión beta incluso con ceros/ones?

Por supuesto, incluso cuando 0 y 1 están en el soporte de la distribución beta, la probabilidad de observar exactamente 0 o 1 es cero. Pero también lo es la probabilidad de observar cualquier otro conjunto contable de valores, así que esto no puede ser un problema, ¿verdad? (Cf. este comentario por @Glen_b).

beta distribution

En el contexto de la regresión beta, la distribución beta se parametriza de forma diferente, pero con ϕ=α+β>2 debe seguir estando bien definida en [0,1] para todos μ .

enter image description here

21voto

olarva Puntos 716

Dado que la loglikelihood contiene tanto log(x) y log(1x) que son ilimitados cuando x=0 o x=1 . Véase la ecuación (4) de Smithson & Verkuilen, " ¿Un exprimidor de limones mejor? Regresión de máxima verosimilitud con variables dependientes distribuidas en beta "(enlace directo a PDF ).

2voto

samjudson Puntos 27483

Además de que la razón proviene en la práctica de la presencia de log(x) y log(1x) En este sentido, intentaré complementar la respuesta a la pregunta tratando de enmarcar la razón subyacente por la que esto ocurre.

De hecho, la distribución beta "se utiliza a menudo para describir la distribución de un valor de probabilidad" ( wikipedia ). Es la distribución de las posibles tendencias p de una distribución binomial, conociendo la observación de N extracciones binarias independientes de una variable aleatoria.

Como resultado, en mi comprensión de la regresión beta, 0s y 1s corresponderían intuitivamente a resultados seguros (infinitos).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X