Digamos que tengo datos que tienen un user_id, una fecha y un código de problema registrado cada vez que un usuario hace una llamada. Y quiero responder a preguntas como "¿cuántas llamadas hizo el usuario?" y "¿qué códigos de problema se registraron con más frecuencia?".
Creo que estoy al 90% con algo como lo siguiente:
ID, date, problem-code
A44, 2016-12-09, P809
A44, 2016-12-09, P810
...
A99, 2016-12-09, P809
A99, 2016-12-09, P810
Donde cada fila es un registro de llamada telefónica. Sin embargo, digamos que el primero, el usuario A44, en realidad llamó UNA VEZ, y se notificaron dos códigos de problema, mientras que A99 llamó dos veces con un único código de problema cada vez. Algo así parece incorrecto:
ID, date, problem-code
A44, 2016-12-09, [P809, P810]
...
A99, 2016-12-09, P809
A99, 2016-12-09, P810
¿Ideas?
La mejor idea que tengo hasta ahora es añadir una columna extra que sea "número de llamada" como una variable extra:
ID, date, problem-code, call-number
A44, 2016-12-09, P809, 73
A44, 2016-12-09, P810, 73
...
A99, 2016-12-09, P809, 97
A99, 2016-12-09, P810, 98
Que podría funcionar, pero entonces se rompe la cada fila es una observación (en el sentido de que era una sola llamada telefónica). Supongo que la observación sería "código del problema" y "número de llamada" sería un valor observado.