3 votos

Idea de regresión logística interesante - problema: Los datos no está en forma de 0/1. ¿Alguna solución?

Yo estoy intentando llevar a cabo una regresión logística para una de tenis analytics proyecto, tratando de predecir la probabilidad de que un jugador que gana un punto en el que él es el servidor. Mi variable de respuesta (puntos de servicio) es binario en el sentido de que sólo puede tener dos resultados para cada observación - un éxito (punto de servicio win) o de un fallo (punto de servicio de la pérdida).

Tengo un problema con mis datos: Para un determinado jugador, tengo el punto por punto de datos para cientos de partidos. Así que tome mis datos para R. Nadal como un ejemplo:

250 partidos, cada uno con alrededor de 70 variable dependiente observaciones (puntos de servicio). Así, para cada partido actualmente tengo las dos variables: Total_Service_Points_Played y Total_Service_Points_Won.

Eg - Partido 1: Total_Service_Points_Played: 70 ; Total_Service_Points_Won: 47

Así que mis datos no están en 1 y 0. Hay una manera que puedo aplicar una regresión logística con mis observaciones de la variable dependiente en su forma actual? Hay alguna transformación sencilla que viene a la mente?

Lo que salta a la mente, para mí, es carne de mi coincidir con los datos en 1 y 0. Así que, después de Igualar 1 arriba, yo tendría: 47 1 seguido por 26 a 0 . Mis datos no proporcionan información en cuanto a qué secuencia de 1 y 0 llegado, pero desde el depdendent variable observaciones se yo.yo.d esto no causa un problema? Me corrija si estoy equivocado, por favor. Otro problema que plantea esta técnica sería el aumento masivo de mis datos - de 250 observaciones como una relación (punto de servicio wins/puntos de servicio jugado) 250*70=17500 observaciones o más.

Como una nota del lado, la última cosa que yo me pregunto es acerca de la dispersión de mi variable dependiente de los datos. Específicamente, en la relación de servir gana a el total de servir a los puntos anteriormente citados, no existe valores < 0.2 o 20% .... Además, no existe ningún valor > 0.9 ..... ¿Esta encajar el proyecto de ley para el (link=logit) argumento? Sé que esto se refiere a una forma de S, la curva, que está definido en 0 y 1, pero los enfoques de ambos valores.... Me podría estar pasando fuera de la pista aquí, pero es algo para estar preocupado?

9voto

Mikko Marttila Puntos 86

Si usted está cabiendo con , puede utilizar la tasa de ganancia como su DV y uso el opción para especificar el número de "ensayos" se basa en la observación de cada tipo. De `` :

Un binomio GLM pesos anterior se utilizan para dar el número de ensayos cuando la respuesta es la proporción de éxitos

Así que la llamada a `` se vería algo como esto:

5voto

snarfblaat Puntos 41

Siempre que su predictores son constantes durante un partido, no importa. Supongamos que estamos aplicando un modelo lineal generalizado de la forma $\exp(\eta y - \psi(\eta))$ a algunos agrupan las respuestas, $y_{11},\ldots,y_{1n_1},\ldots,y_{N1},\ldots,y_{Nn_N}$. Aquí hay $N$ grupos (250 partidos en su caso) con $n_i$ observaciones (alrededor del 70 en su caso) en el$ith$, e $\eta()$ es (en su caso) la función logística. La probabilidad es entonces

$\Pi_{i=1}^N\Pi_{j=1}^{n_i} \exp(\eta_i y_{ij} - \psi(\eta_i))= \Pi_{i=1}^N \exp(\Sigma_{j=1}^{n_i}\eta_i y_{ij}-n_i\psi(\eta_i)) = \Pi_{i=1}^N \exp(n_i(\eta_i y_{i.}-\psi(\eta_i))).$

La última ecuación es simplemente la probabilidad de un aumento exponencial de la familia con suficiente estadística $y_{i.}=\Sigma y_{ij}/n_i$ (el grupo coinciden con los promedios en su caso). Usted puede optimizar la probabilidad de uso de este agrupados estadística así. Por tanto la probabilidad de la ecuación es el mismo si se utilizan los promedios de grupos o cualquier secuencia de 0s, 1s que dan el mismo grupo de los promedios. En particular, el mismo coeficiente de vectores $\beta$ bajo un modelo de regresión $\eta_i=x_i^T\beta$ maximiza la probabilidad, si su predictores $x_i$ se fija en el bloque (el partido).

4voto

fcop Puntos 2891

Existe una regresión logística para datos binarios, pero también uno para los datos agrupados. En el primer caso la probabilidad de la función es un producto de Bernouilli probabilidades y en el último caso, un producto de probabilidades Binomiales (ver, por ejemplo, en este pdf). Como @Analist ha indicado en un comentario, ambos tipos son implementadas en R, en el glm función.

Usted debe crear un marco de datos con columnas nbr.success, nbr.failure y las variables explicativas surface y ranking y, a continuación, utilizar la fórmula, cbind(nbr.success, nbr.failure) ~ surface + ranking + 1, en la glm función.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X