6 votos

Regresión cuando las variables del predictor y el resultado son proporciones

Estoy usando

$X$ El estimado de pre-juego de la probabilidad de ganar de un equipo deportivo de jugar en su Casa de campo (que se calcula en función del modelo)

para predecir

$Y$ Proporción real de los puntos anotados por el equipo de Casa en el juego (es decir, el número de puntos anotados por el equipo en Casa dividida por todos los puntos marcados en el juego).

Gráficamente, los datos de este aspecto.

Home team estimated probability of winning vs Home team actual proportion of score

Datos visibles aquí.

Hice una regresión lineal simple y producido los parámetros de $b_{0} = 0.3554$ e $b_{1} = 0.2930$. Por lo tanto, incluso en el máximo valor posible de $x$ no predecir que el equipo de casa va a anotar más de 100% de los puntos.

Sin embargo, algunos de la lectura de otras preguntas aquí indica que la regresión lineal es generalmente considerado inapropiado para situaciones en las que la variable de resultado es una proporción.

La pregunta es muy similar a este, en el que el cartel estaba tratando de predecir un equipo de porcentaje de victorias. Allí se sugirió que el cartel debe convertir la proporción de victorias en el número de victorias. Sin embargo, en mi pregunta no sería lo mismo para mí usar el número de puntos anotados por el equipo.

  1. Lo impropio que es para mí el uso de regresión lineal de aquí?

  2. Qué tipo de análisis debería uso, teniendo en cuenta que, a diferencia de los vinculados pregunta que no sólo puede utilizar el raw número de puntos anotados por el equipo (ya que estoy realmente interesado en la proporción de puntos de puntuación). gung la respuesta aquí parece indicar beta de la regresión si el predictor es un continuo de la proporción y la regresión logística si es un recuento de la proporción. Sin embargo, no estoy seguro de cual de los dos mi predictor es.

  3. Hace alguna diferencia que mi predictor también se mide como proporción?

6voto

mehturt Puntos 13

Un glm con distribución binomial y un enlace logit debería funcionar bien. Si no hay probabilidades de $0$ o $1$, beta de la regresión es otra posibilidad. En este caso, ellos se rinden casi indistinguibles de los resultados (no se muestra).

La relación entre el logit de la real y el logit de la estimación de las probabilidades se ve bastante lineal (ver imagen de abajo), que me llevaría a utilizar el logit de la estimación de probabilidades como predictor. El R código utilizado para generar los gráficos es en la parte inferior de esta respuesta.

loess_plot

Vamos a visualizar el modelo en la escala original (los puntos son parciales residuos):

enter image description here

Extensiones posibles incluyen:

  • Utilizando errores estándar robustos (ver R código de abajo). Stata fracreg comando se utiliza de forma predeterminada.
  • El uso de un cuasi-verosimilitud (mediante el uso de quasibinomial como familia en glm)

R código de:

library(betareg)
library(visreg)
library(lmtest)
library(sandwich)

# Convert probabilities to log-odds
est_p_logit <- log(est_prob/(1 - est_prob))
act_p_logit <- log(act_prob/(1 - act_prob))

# Check linearity
scatter.smooth(act_p_logit~est_p_logit, las = 1)

# GLM with binomial distribution and logit-link
mod <- glm(act_prob~est_p_logit, family = binomial)

summary(mod)

# Robust standard errors
coeftest(mod, vcov = vcovHC, type = "HC3")

# Visualize GLM model
res_glm <- visreg(mod, scale = "response", ylim = c(0, 1), partial = TRUE, rug = 2)

# Beta regression
mod_beta <- betareg(act_prob~est_p_logit)

# Compare GLM results with beta regression
res_beta <- visreg(mod_beta, scale = "response", ylim = c(0, 1))
lines(res_beta

5voto

user162986 Puntos 41

De manera diferente de la otra respuesta aquí que creo que es una buena respuesta, creo que una regresión lineal suficiente en su situación exacta. Como cuestión de principio, que podría estar equivocado, debido a la difícil límites en el resultado, pero un gráfico de los datos sugiere por qué es una buena aproximación. En ambos extremos, la media de los datos es lo suficientemente lejos de los extremos de los resultados, por lo tanto, no hay ninguna flexión o curvatura de la relación con el respeto de los límites en el original resultado. En resumen, sus predicciones parecen estar relacionada linealmente con el resultado, el requisito más importante para la regresión lineal.

Si lo anterior es cierto, las ventajas de un modelo lineal:

  1. facilidad de interpretación, los coeficientes publicado sentido a la llegada
  2. se puede obtener una relativamente simple medida de la variabilidad alrededor de los armarios de la línea de regresión de la desviación estándar si uno se preocupa.

Empecé por la exploración de los datos:

dat <- read.csv("Estimated probability of winning vs Actual proportion of score - Sheet1.csv")
names(dat) <- c("x", "y")
ggplot(dat, aes(x, y)) + geom_point(shape = 1) + theme_bw() +
  geom_smooth() + geom_smooth(method = "lm", se = FALSE, col = "red")

enter image description here

La línea azul es un modelo aditivo generalizado más suave. La línea roja es el ajuste lineal. Se puede observar cierta curvatura en los extremos, pero hacia afuera, no hacia adentro. Así que sus predicciones no son exactamente linealmente relacionada con el resultado. Puesto que usted tiene suficientes puntos de datos, esto probablemente no es arbitraria.

Una transformación logit de $y$ , es probable que aquí, más bien, una transformación logit de $x$ , ya que se inclina hacia el exterior. Podemos reducir la media de $x$ valores un poco y ampliar el mayor $x$ valores:

ggplot(dat, aes(log(x / (1 - x)), y)) + geom_point(shape = 1) + theme_bw() +
  geom_smooth() + geom_smooth(method = "lm", se = FALSE, col = "red")

enter image description here

Y esta vez, el ajuste lineal se aproxima el alisado, se ajustan bastante bien, no tan bien en las colas, pero lo suficientemente bueno para la mayoría de las aplicaciones. Y homoskedasticity es una suposición plausible.

Por lo que el modelo de regresión de elección es entonces:

coef(summary(fit.lm <- lm(y ~ log(x / (1 - x)), dat)))

                 Estimate  Std. Error   t value      Pr(>|t|)
(Intercept)    0.50116288 0.002897402 172.96973  0.000000e+00
log(x/(1 - x)) 0.05446613 0.002045560  26.62652 6.846189e-124

Cuando la predicción de la log-odds son cero, esperamos que la probabilidad de ganar para ser alrededor de 50%. Un registro-impar mayor, y la expectativa es de un 5% más. Como se ve en la segunda trama anterior, el log-odds de no ir más allá de 5 en cualquier dirección. Así que todos los valores de la predicción de $y$ están vinculados entre 25% y 75%. La regresión efecto es lo suficientemente claro y en una muestra bastante grande de tamaño que confío en que la inferencia no es engañosa en general. Siempre hay alternativas para una mejor precisión.

También se puede obtener un sentido de que el error sobre el conjunto de la línea.

sigma(fit.lm)
[1] 0.09958555

Dada una predicción, aproximadamente el 95% de los valores debe ser dentro de unos $\pm20\%$. El intervalo cuando se agrega el mínimo y el máximo previsto $y$ también se encuentra dentro de los límites.

La justificación para el enfoque lineal, es su sencillez y su adecuación en esta aplicación en particular.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X