6 votos

Compartir un modelo entrenado con datos confidenciales

Tengo un modelo de regresión logística regularizada que utiliza scikit-learn y me gustaría compartirlo con otras personas, aunque los datos con los que se ha entrenado son confidenciales y deben permanecer protegidos. El modelo utiliza características del tipo bolsa de palabras para clasificar automáticamente los textos que describen lesiones, y sería útil para una amplia variedad de tareas de vigilancia de lesiones.

¿Es posible compartir un modelo totalmente entrenado como éste sin revelar información potencialmente protegida, como las palabras que aparecen en los textos sobre los que se ha entrenado? En caso afirmativo, ¿cómo podría hacerlo y cuál sería la protección de la confidencialidad?

6voto

Awais Tariq Puntos 116

En sentido estricto, no se trata de una cuestión estadística, sino de cumplimiento de la normativa. Tienes que consultarlo con el zar de la ética de tu institución, que supongo que pertenece al ámbito sanitario. Algunos zares dirán: "De ninguna manera, José", por muy anónimos que sean los datos. Normalmente, si se recopilan datos para un fin y se obtiene el consentimiento sobre esa base, no se puede simplemente reutilizar los datos para otra cosa. El uso de los datos, una vez recogidos, dependerá de su institución y de su jurisdicción. Si eres de Canadá, mucha suerte, amigo.

Una vez quise utilizar datos confidenciales con fines ilustrativos, y sugerí a mi jefe que extraería muestras aleatorias de los datos (como se hace en un bootstrap), de modo que las distribuciones fueran similares, pero ninguno de los datos perteneciera realmente a pacientes reales. Tenía datos multivariantes, y estaba preparado para volver a muestrear de forma que se respetaran las covarianzas y los marginales.

Mi sugerencia no fue aceptada, en gran parte porque mi jefe no la entendió.

Pero, ¿podría hacer algo así aquí? Revolver los datos, de modo que las frases o "bolsas de palabras", se barajen en diferentes pacientes. La idea detrás de la confidencialidad es que la gente no pueda encontrar al paciente o identificar a esa persona basándose en la información que ven. No quieres que alguien vea los datos y piense: "Conozco a ese tipo".

5voto

LexVjatkin Puntos 126

Puede utilizar el truco hashing . De este modo, en lugar de proporcionar una tabla que asigne palabras a índices, lo que revelaría información sobre las palabras de los datos de entrenamiento, se podría proporcionar simplemente una función hash.

0voto

Podría volver a entrenar su modelo con un conjunto de palabras completamente distinto y mostrarlo como prueba de concepto, es decir, sustituir todas las palabras por nombres de animales, por ejemplo, y sugerir a su público objetivo que si repitiera exactamente los pasos de entrenamiento con palabras más relevantes podría replicar exactamente su modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X