Tengo un conjunto de datos de asistentes a fiestas. Para cada asistente sé a qué fiesta asistió. Quiero poder estimar el número de asistentes a un par de fiestas ( $i, j$ ) debe tienen en común dado el número de participantes de cada una de las dos partes.
La idea es detectar, dentro del conjunto de datos, pares de partidos que tengan un número de asistentes compartidos superior o inferior a la media, controlando el tamaño de ambos partidos.
Seamos claros. I do saber quién fue a cada fiesta. I no quiere predecir algo que no está en el conjunto de datos. Lo que quiero que hay que saber es si el número de participantes compartidos por cada par de partes se aleja de la "media" del conjunto de datos. Pero de alguna manera tengo que controlar el tamaño de los dos partidos porque, por supuesto, cuanto mayor sea el tamaño, mayor será la probabilidad de que haya personas en ambos partidos.
Imaginé un modelo de regresión lineal como
FiesterosEnComún $\approx \beta_0 + \beta_1 ($ Fiesteros $_i$ Fiesteros $_j)$
Tengo dos preguntas sobre la interpretación de los resultados:
1) El hecho de que la respuesta PartygoersInCommon no sea una variable continua, sino un número entero, ¿complica la interpretación del modelo?
2) ¿Es correcto multiplicar Partygoers $_i$ y Fiesteros $_j$ o sería mejor tratarlas como dos variables independientes separadas como en
FiesterosEnComún $\approx \beta_0 + \beta_1$ Fiesteros $_i + \beta_2$ Fiesteros $_j$ ?