Tengo un problema del tipo "¿cuál es la probabilidad de que a un usuario le "guste" una determinada película?" Para un grupo de usuarios, conozco las películas que cada uno ha visto históricamente, y las películas que le han gustado a cada uno. Además, para cada película conozco el nombre del director.
Calibré una regresión logística para cada usuario del formulario:
glm(liked_by_user_1 ~ liked_by_user_2 + ... + liked_by_user_k + factor(director), family=binomial, data = subset(MovieWatchings, user_id == 1))
Pero mi problema es: digamos que en el pasado, el usuario 1 ha visto películas de directores D1
a través de DM
pero el mes que viene U1
ve una película dirigida por DN
? En ese caso el R predict()
dará un error, porque el modelo glm para el usuario 1 no tiene un parámetro estimado para el caso de director = DN
. Pero debo saber algo sobre U1's
probabilidad de que le guste la nueva película, porque todavía sé qué otros usuarios han visto y les ha gustado esta película, y eso tiene cierto poder predictivo.
¿Cómo puedo configurar mi modelo de manera que pueda tener en cuenta el comportamiento de los otros usuarios y las preferencias del usuario 1 en cuanto a los directores, pero que siga teniendo predicciones razonables cuando el usuario 1 vea su primera película de un nuevo director? ¿Es la regresión logística el tipo de modelo adecuado para este caso?