Como sugiere el título, estoy bastante confundido acerca de qué enfoque tiene más sentido para mi de datos. Déjame que te explique brevemente el problema.
Tengo la opción binaria de datos que representa si una persona específica para un determinado evento, tomó el tren o el autobús. Tengo nivel de evento predictores (lugar del evento, la duración del evento), así como de la persona a nivel de los predictores (nivel de ingresos, nivel de educación). Hay varios, pero desequilibrada, eventos por persona.
Aquí está el poco inusual parte: tengo un montón de histórico info con todos los valores predictores así como se observa elección. Quiero construir un modelo de regresión de que luego se pueden aplicar a los nuevos datos (que consiste en todo, excepto en el nivel de educación) para inferir con tanta confianza como sea posible, que la educación de la persona, basándose en su observó opciones.
Mis pensamientos sobre cómo hacer esto:
- Crear un efecto mixto, multinivel modelo de regresión logística, con la opción de transporte como mi variable dependiente, y education_level como uno de los predictores. Ahora resolver para education_level el uso de algo como la inversa de regresión logística.
- Hacer una regresión en cuenta. Ahora, la educación es la variable dependiente, y se resumen los recuentos de cada subconjunto de variables predictoras hemos visto (por ejemplo, hubo 5 eventos cercanos en el que los ricos hombres tomó el autobús, 3 lejana eventos donde...)
- Algún tipo de latente modelo de clase?
¿Cuáles son los pros y los contras de estas alternativas? También, existen todavía otros enfoques, vale la pena examinar (por ejemplo, CFA)?
(Y por favor, hágamelo saber si tengo que dar más detalles sobre el problema.)
Gracias por su tiempo, Ian.