La regresión beta (es decir, GLM con distribución beta y normalmente la función de enlace logit) suele recomendarse para tratar con variables dependientes aka respuesta que toman valores entre 0 y 1, como fracciones, proporciones o probabilidades: Regresión para un resultado (ratio o fracción) entre 0 y 1 .
Sin embargo, siempre se afirma que la regresión beta no puede utilizarse en cuanto la variable de respuesta es igual a 0 o 1 al menos una vez. Si es así, hay que utilizar un modelo beta cero/uno-inflado, o bien realizar alguna transformación de la respuesta, etc: Regresión beta de datos proporcionales que incluyen 1 y 0 .
Mi pregunta es: ¿qué propiedad de la distribución beta impide que la regresión beta trate con 0 y 1 exactos, y por qué?
Supongo que es que $0$ y $1$ no se encuentran en el soporte de la distribución beta. Pero para todos los parámetros de forma $\alpha>1$ y $\beta>1$ tanto cero como uno son en el soporte de la distribución beta, es sólo para parámetros de forma más pequeños que la distribución va a infinito en uno o ambos lados. Y quizá los datos de la muestra sean tales que $\alpha$ y $\beta$ proporcionando el mejor ajuste ambos resultarían estar por encima de $1$ .
¿Significa esto que en algunos casos uno podría utilizar de hecho la regresión beta incluso con ceros/ones?
Por supuesto, incluso cuando 0 y 1 están en el soporte de la distribución beta, la probabilidad de observar exactamente 0 o 1 es cero. Pero también lo es la probabilidad de observar cualquier otro conjunto contable de valores, así que esto no puede ser un problema, ¿verdad? (Cf. este comentario por @Glen_b).
En el contexto de la regresión beta, la distribución beta se parametriza de forma diferente, pero con $\phi=\alpha+\beta>2$ debe seguir estando bien definida en $[0,1]$ para todos $\mu$ .