7 votos

Agrupación de datos por regresión logística

Quiero correr una regresión logística en carreras de galgos. Para cada carrera, tengo una variable ficticia (y) que toma valor uno cuando el perro victorias y cero en caso contrario.

Por desgracia, el número de perros en cada carrera puede variar ya que algunos son retirados por el motivo que sea. Actualmente me piscina de los datos verticalmente concatenar para crear una enorme columna o resultados de la carrera y una gran columna para cada variable independiente.

  1. Es esta la forma correcta de la piscina de los datos para este tipo de problema?
  2. ¿Hay algún problema con el hecho de que los datos que originalmente vino de razas distintas, a menudo con diferentes números de perros corriendo?

10voto

Sean Hanley Puntos 2428

Todo esto es el mal de cabeza. En primer lugar, tenga en cuenta que no es significativa estatus ontológico de 'ganador'.

Cómo determinar la calidad de algo cuando todo lo que tienes es un conjunto de resultados de la cabeza-a-cabeza comparaciones (por ejemplo, equipos de deportes con base en los resultados de los juegos en una temporada) es una pregunta muy difícil. En el caso más simple, un Bradley-Terry modelo podría ser utilizado para predecir la probabilidad de que una unidad de $i$ va a vencer a la unidad de $j$. La red bayesiana análisis también puede ser utilizado.

Una Bradley-Terry modelo no funciona en su caso, pero su caso es mucho más simple: Que presumiblemente ya se disponen de datos directamente en la calidad de cada perro, como un perro de carreras. Específicamente, usted debe tener cada perro es de los tiempos de carrera. Mejor raza de perro es sólo un perro más rápido. Si desea determinar qué variables están relacionadas con la capacidad de un perro de raza, que necesita para modelar las carreras de veces. Si usted desea clasificar existente perros, usted podría ajustar un modelo Bayesiano, o un modelo de efectos mixtos y mirar el BLUPs. Si usted quería estimaciones de la probabilidad de que Un perro va a ganar una determinada carrera (por ejemplo, para la producción de libros), usted podría tener equipado el tiempo de carrera de las distribuciones de cada perro en la carrera y simular para generar la proporción de las pistas que Un perro tiene el menor tiempo.


Actualización:
Como entiendo que tu situación ahora desde tu comentario, deduzco que usted desea determinar si las probabilidades que se dieron en el pasado (por cualquier método) eran razonables en vista de lo que ahora sabemos acerca de que si un perro, de hecho ganó su carrera. Esta es una situación diferente de lo que yo pensaba que estaban preguntando acerca de en el cuerpo de la pregunta. Aquí usted no está tratando de construir un modelo de cualquier tipo, que sólo están tratando de evaluar la calibración de la partida de probabilidades.

En primer lugar, tenga en cuenta que las probabilidades de que una casa de apuestas (por ejemplo, la pista) ofrecerá a / de la lista no son las probabilidades de que ellos piensan que son justos. Tienen que agregar un corte con el fin de ganarse la vida (cf., Probabilidades simples). Por lo que usted necesita para eliminar que las posibilidades reales que se creía justo.

Una vez que tenga esos números, la comprobación más sencilla es que deben implica un 100% de probabilidad de que uno de los perros de ganar. Por ejemplo, si sólo había dos perros y uno de ellos había un estimado de probabilidades de ganar de 1 a 3, el otro perro de las probabilidades debe ser de 3 a 1; si se tratara de 10 a 1, algo no cuadra.

Para responder a su pregunta específica, si las probabilidades se suman, no tienes que tomar en cuenta el número de perros en una carrera, ya que las probabilidades de ser ofrecidos se supone dar cuenta de aquello, y si no, que es algo que usted desea descubrir.

En este punto, usted podría evaluar la discriminativo rendimiento de las probabilidades de computación Somer D, que es informationally equivalente al área bajo la curva roc (AUC).

Por último, se puede convertir la feria de probabilidades en el registro de probabilidades de ganar y utilizarlos como una única variable predictiva de un modelo de regresión logística. El intercepto y la pendiente de que el modelo debería ser$0$$1$, si las probabilidades no están sesgados.

5voto

Mark White Puntos 569

Que fino es el camino a la estructura de los datos, sí. Su temor proviene de la toma de datos en una estructura multinivel: los Perros están anidados dentro de las razas. Usted puede probar si la "necesidad" de tomar en cuenta esta estructura multinivel haciendo modelos multinivel. Usted puede especificar un modelo con un aleatorio en la intersección de la carrera de nivel (Nivel 2) y uno sin este intercepto aleatorio. A continuación, puede comparar a estos dos modelos, a ver si la adición de la aleatorios interceptar representa una proporción significativa de la varianza en los resultados.

El paquete lme4 en R es mi go-to para la ejecución de modelos multinivel, y se encarga de regresión logística mediante el glmer función() junto con la familia= argumento, especificando la binomial.

3voto

denn Puntos 1
  1. No entiendo muy bien qué quieres decir con "piscina" aquí. Lo que usted describe sin duda tendrá sus datos en un formato que hace que sea fácil trabajar en R o Python (aunque poniéndolo en una de datos.marco de objeto es el limpiador de la omi).

  2. El hecho de que diferentes números de perros de carreras, probablemente no será un problema. Lo que va a ser un problema es la dependencia de cada perro tiene sobre sus competidores. Los perros no una carrera en un vacío. Cada perro afecta a cada uno de los otros perros de probabilidades de ganar. El modelo le dirá qué perro-características conforman un perro ganador, pero no se cuenta la dependencia... que probablemente en serio confundir los resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X