En sentido estricto, no se trata de una cuestión estadística, sino de cumplimiento de la normativa. Tienes que consultarlo con el zar de la ética de tu institución, que supongo que pertenece al ámbito sanitario. Algunos zares dirán: "De ninguna manera, José", por muy anónimos que sean los datos. Normalmente, si se recopilan datos para un fin y se obtiene el consentimiento sobre esa base, no se puede simplemente reutilizar los datos para otra cosa. El uso de los datos, una vez recogidos, dependerá de su institución y de su jurisdicción. Si eres de Canadá, mucha suerte, amigo.
Una vez quise utilizar datos confidenciales con fines ilustrativos, y sugerí a mi jefe que extraería muestras aleatorias de los datos (como se hace en un bootstrap), de modo que las distribuciones fueran similares, pero ninguno de los datos perteneciera realmente a pacientes reales. Tenía datos multivariantes, y estaba preparado para volver a muestrear de forma que se respetaran las covarianzas y los marginales.
Mi sugerencia no fue aceptada, en gran parte porque mi jefe no la entendió.
Pero, ¿podría hacer algo así aquí? Revolver los datos, de modo que las frases o "bolsas de palabras", se barajen en diferentes pacientes. La idea detrás de la confidencialidad es que la gente no pueda encontrar al paciente o identificar a esa persona basándose en la información que ven. No quieres que alguien vea los datos y piense: "Conozco a ese tipo".