Yo estoy intentando llevar a cabo una regresión logística para una de tenis analytics proyecto, tratando de predecir la probabilidad de que un jugador que gana un punto en el que él es el servidor. Mi variable de respuesta (puntos de servicio) es binario en el sentido de que sólo puede tener dos resultados para cada observación - un éxito (punto de servicio win) o de un fallo (punto de servicio de la pérdida).
Tengo un problema con mis datos: Para un determinado jugador, tengo el punto por punto de datos para cientos de partidos. Así que tome mis datos para R. Nadal como un ejemplo:
250 partidos, cada uno con alrededor de 70 variable dependiente observaciones (puntos de servicio). Así, para cada partido actualmente tengo las dos variables: Total_Service_Points_Played y Total_Service_Points_Won.
Eg - Partido 1: Total_Service_Points_Played: 70 ; Total_Service_Points_Won: 47
Así que mis datos no están en 1 y 0. Hay una manera que puedo aplicar una regresión logística con mis observaciones de la variable dependiente en su forma actual? Hay alguna transformación sencilla que viene a la mente?
Lo que salta a la mente, para mí, es carne de mi coincidir con los datos en 1 y 0. Así que, después de Igualar 1 arriba, yo tendría: 47 1 seguido por 26 a 0 . Mis datos no proporcionan información en cuanto a qué secuencia de 1 y 0 llegado, pero desde el depdendent variable observaciones se yo.yo.d esto no causa un problema? Me corrija si estoy equivocado, por favor. Otro problema que plantea esta técnica sería el aumento masivo de mis datos - de 250 observaciones como una relación (punto de servicio wins/puntos de servicio jugado) 250*70=17500 observaciones o más.
Como una nota del lado, la última cosa que yo me pregunto es acerca de la dispersión de mi variable dependiente de los datos. Específicamente, en la relación de servir gana a el total de servir a los puntos anteriormente citados, no existe valores < 0.2 o 20% .... Además, no existe ningún valor > 0.9 ..... ¿Esta encajar el proyecto de ley para el (link=logit) argumento? Sé que esto se refiere a una forma de S, la curva, que está definido en 0 y 1, pero los enfoques de ambos valores.... Me podría estar pasando fuera de la pista aquí, pero es algo para estar preocupado?