27 votos

Tratar con 0,1 valores en una versión beta de la regresión

Tengo algunos datos en [0,1] que me gustaría analizar con una beta de la regresión. Por supuesto, algo que necesita ser hecho para acomodar el 0,1 valores. No me gusta la modificación de los datos de ajuste de un modelo. también no creo que el cero y el 1 de inflación es una buena idea, porque creo que en este caso se debe considerar el 0 para ser muy pequeños valores positivos (pero no quiero decir exactamente lo que valor es adecuado. Una elección razonable que yo creo que sería para recoger los valores pequeños como .001 y .999 y ajuste del modelo utilizando el acumulado de dist para la beta. Así que para las observaciones y_i el registro de probabilidad LL_iwould ser

 if  y_i < .001   LL+=log(cumd_beta(.001))
 else if y_i>.999  LL+=log(1.0-cum_beta(.999))
 else LL+=log(beta_density(y_i))

Lo que me gusta de este modelo es que si el modelo de regresión beta es válido este modelo también es válido, pero quita un poco de la sensibilidad a la los valores extremos. Sin embargo, esto parece ser un método natural que Me pregunto por qué yo no encuentro referencias evidentes en la literatura. Así que mi pregunta es, en lugar de modificar los datos, ¿por qué no modificar el modelo. La modificación de los datos de posibles sesgos en los resultados (basados en la suposición de que el modelo original es válida), mientras que la modificación del modelo de binnning los valores extremos no sesgar los resultados.

Tal vez hay un problema soy vistas?

35voto

user11867 Puntos 21

De acuerdo a este documento, una transformación apropiada es

$$ x' = \frac{x(N-1) + s}{N} $$

"donde N es el tamaño de la muestra y s es una constante entre 0 y 1. Desde un punto de vista Bayesiano, s actúa como si estamos tomando una previa en cuenta. Una opción razonable para s sería .5."

Esto le apriete de datos que se encuentra en $[0,1]$$(0,1)$. La cita de arriba, y una razón matemática de la transformación está disponible en el documento complementario, las notas.

3voto

Psycho Bob Puntos 661

Dave,

Un enfoque común a este problema es el ajuste 2 modelos de regresión logística para predecir si un caso es de 0 o 1. A continuación, una versión beta de la regresión se utiliza para aquellos en el intervalo (0,1).

2voto

andynormancx Puntos 234

La distribución beta de la siguiente manera a partir de la suficiente estadísticas de $(\log(x), \log(1-x))$. Hacer esas estadísticas tienen sentido para sus datos? Si usted tiene tantos ceros y unos, entonces, parece dudoso que hacer, y usted podría considerar la posibilidad de no usar una distribución beta.

Si tuviese que elegir la suficiente estadística $x$ (por encima de su limitada de apoyo), entonces creo que usted termina con una distribución exponencial truncada, y con $(x,x^2)$ una distribución normal truncada.

Yo creo que ambos son fácilmente estimada en un Bayesiano de modo que ambos exponencial de las familias. Esta es una modificación del modelo como que usted estaba esperando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X