5 votos

¿Podemos utilizar la regresión fraccionaria para una variable dependiente que está formada por un numerador y un denominador continuos?

Tengo una variable dependiente que es un ratio, que toma valores entre 0 y 1. Un 30% de los valores son 1s. La variable dependiente mide la distribución de los fondos y se calcula como cantidad de dinero distribuido / cantidad total de dinero propuesto. Por tanto, el ratio procede de datos continuos (las cantidades de dinero distribuidas y propuestas).

Estoy construyendo un modelo para ver qué factores influyen en la tasa de desembolso.

Me han dicho que una regresión logit fraccionada podría ser adecuada en este caso. Aquí hay una fuente que habla de la regresión fraccionaria.

Lo que me extraña es que esta fuente mencione "recuentos en bruto" en la introducción:

"Introducción

A veces puede darse el caso de tener datos que se sitúan principalmente entre el cero y el uno. Por ejemplo, puede tratarse de proporciones, calificaciones de 0 a 100 que pueden transformarse como tales, valores de percentiles reportados y similares. Si tuviera el recuentos en bruto donde también se conocía el denominador o el valor total que creaba la proporción, se podría utilizar simplemente la regresión logística estándar con la distribución binomial. Del mismo modo, si tuviera un resultado binario (es decir, sólo ceros y unos), éste es sólo un caso especial, por lo que el mismo modelo sería aplicable. Alternativamente, si todos los valores de la variable objetivo están entre cero y uno, la regresión beta es una opción natural para modelar esos datos. Sin embargo, si la variable que se desea modelar tiene valores entre cero y uno y, además, también tiene ceros o unos, ¿qué se debe hacer?"

¿Sabes si esto sugiere que una variable dependiente debe provenir necesariamente de datos de conteo si vamos a utilizar la regresión fraccional, o puede provenir de datos continuos como en mi ejemplo?

Agradezco cualquier fuente y comentario útil.


Me parece que no es necesario que la variable dependiente provenga de datos de conteo. Por favor, vea el fuente uno y fuente dos que da ejemplos de estudios que han utilizado la regresión fraccionaria con variables dependientes fraccionarias que se basan en diversos tipos de datos.

Por supuesto, esto no significa necesariamente que estos estudios se hayan realizado correctamente. Por tanto, estoy abierto a escuchar más opiniones, argumentos y artículos al respecto.

2 votos

Nota: las ratios no se definen tomando "los valores entre 0 y 1". Por ejemplo, la razón de riesgos y la razón de probabilidades toman valores entre $0$ & $\infty$ y otros cocientes derivados de numeradores y denominadores que pueden tomar valores positivos y negativos pueden tomar valores entre $-\infty$ y $\infty$ .

3 votos

Tenga en cuenta que considerar el dinero como continuo es una convención que surge porque el número de valores distintos que puede tener es bastante grande. A cierto nivel, usted cuenta centavos, o lo que sea la unidad monetaria más pequeña, y su variable es discreta. Los demógrafos y otras personas se mueven sin problemas entre recordar que las personas son individuos y hacer matemáticas como si la población pudiera tratarse como si fuera continua.

0 votos

@NickCox: Cierto y pertinente; pero sin duda no se pretende tentar a ningún lector para que modifique el reembolso de 3.000 libras de 7.000 como 300.000 "éxitos" en 700.000 ensayos independientes, como podría sugerir el "recuento bruto" en este contexto.

5voto

jasonmray Puntos 1303

Sí. Imagina la fracción continua $p$ como fracción contada $\frac{\sum_{j=1}^m y_j}{m}$ (eligiendo cualquier numerador y denominador que mantenga la precisión registrada de $p$ ). Si $y_j$ se toma como una variante Bernoulli, la contribución a la log-verosimilitud de una sola observación en un modelo lineal generalizado con función de enlace $g(\cdot)$ , predictores $\vec x$ & coeficientes $\vec\beta$ es

$$ \begin{align} & \sum_{j=1}^m \left[y_j \log \left(g^{-1}(\vec x \vec\beta)\right) + (1-y_j) \log\left( 1- g^{-1}(\vec x \vec \beta)\right)\right] \\ =& \left(\sum_{j=1}^m y_j \right) \log \left(g^{-1}(\vec x \vec\beta)\right) + \left(m - \sum_{j=1}^m y_j\right) \log\left( 1- g^{-1}(\vec x \vec\beta)\right) \\ =& m \left[p \log \left(g^{-1}(\vec x \vec\beta)\right) + (1-p) \log \left(1- g^{-1}(\vec x \vec\beta)\right)\right] \end{align} $$

Como el valor de $m$ no supone ninguna diferencia en la estimación de máxima verosimilitud de $\vec\beta$ en una regresión logit fraccional simplemente se maximiza

$$ p \log \left(g^{-1}(\vec x \vec\beta)\right) + (1-p) \log \left(1- g^{-1}(\vec x \vec\beta)\right) $$

Esto da una estimación consistente para la media condicional $\operatorname E P$ bajo el supuesto de que

$$ g(\operatorname{E} P)= \vec x \vec \beta$$

El procedimiento no sabe ni le importa si las fracciones modeladas proceden de recuentos brutos o no.


En fin, puede considerar que las fracciones continuas 0,734, 0,642 y 0,149 son 734, 642 y 149 "éxitos" de 1000 ensayos, o 7340, 6420 y 1490 de 10 000; y obtendrá la misma respuesta, al menos en lo que respecta a las estimaciones de los parámetros (en cualquier caso, normalmente utilizará estimaciones robustas de la varianza (o quizás estimará un parámetro de dispersión) para los errores estándar).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X