Tengo una variable dependiente que es un ratio, que toma valores entre 0 y 1. Un 30% de los valores son 1s. La variable dependiente mide la distribución de los fondos y se calcula como cantidad de dinero distribuido / cantidad total de dinero propuesto. Por tanto, el ratio procede de datos continuos (las cantidades de dinero distribuidas y propuestas).
Estoy construyendo un modelo para ver qué factores influyen en la tasa de desembolso.
Me han dicho que una regresión logit fraccionada podría ser adecuada en este caso. Aquí hay una fuente que habla de la regresión fraccionaria.
Lo que me extraña es que esta fuente mencione "recuentos en bruto" en la introducción:
"Introducción
A veces puede darse el caso de tener datos que se sitúan principalmente entre el cero y el uno. Por ejemplo, puede tratarse de proporciones, calificaciones de 0 a 100 que pueden transformarse como tales, valores de percentiles reportados y similares. Si tuviera el recuentos en bruto donde también se conocía el denominador o el valor total que creaba la proporción, se podría utilizar simplemente la regresión logística estándar con la distribución binomial. Del mismo modo, si tuviera un resultado binario (es decir, sólo ceros y unos), éste es sólo un caso especial, por lo que el mismo modelo sería aplicable. Alternativamente, si todos los valores de la variable objetivo están entre cero y uno, la regresión beta es una opción natural para modelar esos datos. Sin embargo, si la variable que se desea modelar tiene valores entre cero y uno y, además, también tiene ceros o unos, ¿qué se debe hacer?"
¿Sabes si esto sugiere que una variable dependiente debe provenir necesariamente de datos de conteo si vamos a utilizar la regresión fraccional, o puede provenir de datos continuos como en mi ejemplo?
Agradezco cualquier fuente y comentario útil.
Me parece que no es necesario que la variable dependiente provenga de datos de conteo. Por favor, vea el fuente uno y fuente dos que da ejemplos de estudios que han utilizado la regresión fraccionaria con variables dependientes fraccionarias que se basan en diversos tipos de datos.
Por supuesto, esto no significa necesariamente que estos estudios se hayan realizado correctamente. Por tanto, estoy abierto a escuchar más opiniones, argumentos y artículos al respecto.
2 votos
Nota: las ratios no se definen tomando "los valores entre 0 y 1". Por ejemplo, la razón de riesgos y la razón de probabilidades toman valores entre $0$ & $\infty$ y otros cocientes derivados de numeradores y denominadores que pueden tomar valores positivos y negativos pueden tomar valores entre $-\infty$ y $\infty$ .
3 votos
Tenga en cuenta que considerar el dinero como continuo es una convención que surge porque el número de valores distintos que puede tener es bastante grande. A cierto nivel, usted cuenta centavos, o lo que sea la unidad monetaria más pequeña, y su variable es discreta. Los demógrafos y otras personas se mueven sin problemas entre recordar que las personas son individuos y hacer matemáticas como si la población pudiera tratarse como si fuera continua.
0 votos
@NickCox: Cierto y pertinente; pero sin duda no se pretende tentar a ningún lector para que modifique el reembolso de 3.000 libras de 7.000 como 300.000 "éxitos" en 700.000 ensayos independientes, como podría sugerir el "recuento bruto" en este contexto.
1 votos
@Scortchi-ReinstateMonica Sólo reaccionaba a la insistencia del OP en que sus datos son continuos, a lo que el comentario más corto y pedante es No estrictamente y cualquier comentario más largo es, más o menos, sabemos lo que quieres decir y es justo.
0 votos
@NickCox: Lo sé - es que he visto con mis propios ojos 'libras gastadas' modeladas como un conteo de Poisson, completo con valores p para las estimaciones de coeficientes y todo.
1 votos
Como supongo que ambos sabemos, sólo se necesita una codificación cuidadosa para llamar a los errores estándar apropiados allí. $Y = \exp(Xb)$ podría ser una forma funcional adecuada.
0 votos
@NickCox: Tuvimos una pregunta hace 7 años sobre eso, que enlazo ya que no es ajena a esta: ¿Cómo es posible que el GLM de Poisson acepte números no enteros? . (Y gracias - esta digresión me ha llevado a notar y corregir un error en mi respuesta allí).