67 votos

Regresión para un resultado (ratio o fracción) entre 0 y 1

Estoy pensando en construir un modelo que prediga un ratio $a/b$ donde $a \le b$ et $a > 0$ et $b > 0$ . Por lo tanto, la proporción estaría entre $0$ et $1$ .

Podría utilizar la regresión lineal, aunque no se limita naturalmente a 0..1. No tengo motivos para creer que la relación sea lineal, pero por supuesto se utiliza a menudo de todos modos, como un primer modelo simple.

Podría utilizar una regresión logística, aunque normalmente se utiliza para predecir la probabilidad de un resultado de dos estados, no para predecir un valor continuo del intervalo 0..1.

Sin saber nada más, ¿utilizaría la regresión lineal, la regresión logística o la opción oculta c ?

5 votos

¿Has considerado la regresión beta?

0 votos

Muchas gracias a todos los que han contestado. Tendré que estudiar y elegir. Suena como una beta es un lugar decente para empezar, especialmente si puedo observar un buen ajuste (tal vez a ojo).

0 votos

He visto que esto se hace utilizando GLM (función de enlace de Poisson). El numerador a serían los datos de recuento (el resultado) y el denominador b sería la variable de desplazamiento. Entonces necesitaría separar a et b para cada sujeto/observación. No estoy seguro de que ésta sea la opción más válida. La distribución Beta me parece una opción interesante, de la que no había oído hablar. Sin embargo, me resulta difícil de entender, ya que no soy estadístico.

51voto

Sean Hanley Puntos 2428

Debe elegir "opción oculta c", donde c es la regresión beta. Se trata de un tipo de modelo de regresión apropiado cuando la variable de respuesta se distribuye como Beta . Puedes pensar en ello como algo análogo a un modelo lineal generalizado . Es exactamente lo que busca. Hay un paquete en R llamado betareg que se ocupa de esto. No sé si utiliza R pero incluso si no lo hace, puede leer las "viñetas" de todos modos, ya que le proporcionarán información general sobre el tema, además de cómo aplicarlo en la práctica. R (que no necesitarías en ese caso).


Editar (mucho más tarde): Permítanme hacer una rápida aclaración. Interpreto que la pregunta se refiere al cociente de dos valores reales positivos. Si es así, (y se distribuyen como Gammas) se trata de una distribución Beta. Sin embargo, si $a$ es un recuento de "éxitos" de un total conocido, $b$ de "ensayos", entonces se trataría de una proporción de recuento $a/b$ no es una proporción continua, y debería utilizar un MLG binomial (por ejemplo, regresión logística). Para saber cómo hacerlo en R, véase por ejemplo ¿Cómo realizar una regresión logística en R cuando el resultado es fraccionario (un cociente de dos cuentas)?

Otra posibilidad es utilizar la regresión lineal si los coeficientes pueden transformarse de modo que cumplan los supuestos de un modelo lineal estándar, aunque yo no sería optimista en cuanto a su funcionamiento.

3 votos

¿Le importaría explicar por qué las regresiones beta serían preferibles en este caso? Es una recomendación que veo con bastante frecuencia por aquí, pero no veo a nadie que explique los motivos.

0 votos

(Aunque estoy encontrando la introducción a la viñeta betareg bastante informativo)

7 votos

@MattParker, Beta es la distribución de proporciones continuas - si eso es lo que tienes como variable de respuesta, entonces Beta es la distribución apropiada a utilizar. Es así de sencillo. El valor ajustado de una regresión logística es una probabilidad (que es, obviamente, continua), pero la distribución es binomial (un cierto número de Bernoulli ensayos w / probabilidad de éxito $p$ ) si su variable de respuesta no es un conjunto de ensayos Bernoulli, entonces LR no es apropiado.

2voto

DocBuckets Puntos 750

¿Se trata de muestras pareadas o de dos poblaciones independientes?

Si se trata de poblaciones independientes, podría considerar log(M) = log(B) + $X_i$ *log(ratio) . M es su medida (un vector que contiene todos los valores de A y B) y X es un vector $X_i$ = 1 si $M_i$ es un valor de A, $X_i$ = 0 si $M_i$ es un valor de B.

El intercepto de esta regresión será log(B) y la pendiente será log(ratio).

Más información aquí:

Beyene J, Moineddin R. Methods for confidence interval estimation of a ratio parameter with application to location quotients. BMC medical research methodology. 2005;5(1):32.

EDIT: He escrito un addon SPSS para hacer precisamente esto. Puedo compartirlo si está interesado.

1 votos

Por curiosidad, ¿qué método ha utilizado (delta, Fieller o GLM)? Me fastidia un poco que en el artículo de BMC no se hicieran simulaciones de la cobertura de los distintos estimadores (aunque soñar con una simulación realista sería fastidioso). Me lo han recordado porque hace poco me encontré con un documento que hace el método delta (sin justificación real), aunque cita el artículo de BMC.

1 votos

Cuando escribí este comentario, utilicé REGRESSION tras la transformación logarítmica de los datos. Desde entonces he escrito una versión más sofisticada que utiliza GLM . Me ocupo de las mediciones de emisión de luz y mis pruebas sugirieron que la regresión gamma con un enlace logarítmico era la menos propensa a la incertidumbre desbocada en los parámetros. Para la mayoría de mis datos reales, las respuestas de la utilización normal, negativo-binomial, y gamma con log-link fueron muy similares (al menos a la precisión que necesitaba)

0voto

mat_geek Puntos 1367

No es cierto. Los datos de la regresión logística son binarios 0 ó 1, pero el modelo predice p, es decir, la probabilidad de éxito dados los predictores. $X_i$ , $i=1,2,..,k$ donde $k$ es el número de variables predictoras del modelo. En realidad, debido a la función logit, el modelo lineal predice el valor de log( $\frac{p}{1-p}$ ). Así que para obtener la predicción de p basta con hacer la transformación inversa $p=\frac{\exp(x)}{[1+\exp(x)]}$ donde $x$ es el logit previsto.

0 votos

-1. No veo cómo esto responde a la pregunta (y además $p$ se utiliza para referirse a dos cosas diferentes en esta respuesta).

3 votos

-1. Estoy de acuerdo con @amoeba. No entiendo por qué esto fue votado. No tiene nada que ver con la pregunta, que no asume datos binarios 0 o 1 en absoluto, sino que se centra en proporciones medidas que están entre 0 y 1 inclusive.

0voto

krasnaya Puntos 494

Podemos utilizar sample_weights en SVM-C o cualquier otro clasificador siendo los pesos la proporción. Habría dos puntos de datos por cada punto de datos en el caso original:

  1. Con 1 como variable objetivo donde sample_weight es igual a ratio
  2. Con 0 como variable objetivo donde sample_weight es (1-ratio).

Considere aquí el efecto de sample_weights en SVM-C https://scikit-learn.org/stable/auto_examples/svm/plot_weighted_samples.html

A continuación, podemos utilizar la probabilidad prevista para el valor objetivo 1 como estimación de la proporción. Aquí los pesos se refieren a sample_weights en el método de ajuste de sklearn

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X