Compartir un modelo entrenado con datos confidenciales

Question

Compartir un modelo entrenado con datos confidenciales

Preguntado el 1 de Junio, 2013: Cuando se hizo la pregunta
201 visitas: Cuantas visitas ha tenido la pregunta
3 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo un modelo de regresión logística regularizada que utiliza scikit-learn y me gustaría compartirlo con otras personas, aunque los datos con los que se ha entrenado son confidenciales y deben permanecer protegidos. El modelo utiliza características del tipo bolsa de palabras para clasificar automáticamente los textos que describen lesiones, y sería útil para una amplia variedad de tareas de vigilancia de lesiones.

¿Es posible compartir un modelo totalmente entrenado como éste sin revelar información potencialmente protegida, como las palabras que aparecen en los textos sobre los que se ha entrenado? En caso afirmativo, ¿cómo podría hacerlo y cuál sería la protección de la confidencialidad?

Preguntado el 1 de Junio, 2013 por DanGar

Answer 1

3 Respuestas

Answer 2

6voto

Awais Tariq Puntos 116

En sentido estricto, no se trata de una cuestión estadística, sino de cumplimiento de la normativa. Tienes que consultarlo con el zar de la ética de tu institución, que supongo que pertenece al ámbito sanitario. Algunos zares dirán: "De ninguna manera, José", por muy anónimos que sean los datos. Normalmente, si se recopilan datos para un fin y se obtiene el consentimiento sobre esa base, no se puede simplemente reutilizar los datos para otra cosa. El uso de los datos, una vez recogidos, dependerá de su institución y de su jurisdicción. Si eres de Canadá, mucha suerte, amigo.

Una vez quise utilizar datos confidenciales con fines ilustrativos, y sugerí a mi jefe que extraería muestras aleatorias de los datos (como se hace en un bootstrap), de modo que las distribuciones fueran similares, pero ninguno de los datos perteneciera realmente a pacientes reales. Tenía datos multivariantes, y estaba preparado para volver a muestrear de forma que se respetaran las covarianzas y los marginales.

Mi sugerencia no fue aceptada, en gran parte porque mi jefe no la entendió.

Pero, ¿podría hacer algo así aquí? Revolver los datos, de modo que las frases o "bolsas de palabras", se barajen en diferentes pacientes. La idea detrás de la confidencialidad es que la gente no pueda encontrar al paciente o identificar a esa persona basándose en la información que ven. No quieres que alguien vea los datos y piense: "Conozco a ese tipo".

Respondido el 1 de Junio, 2013 por Awais Tariq (116 Puntos )

Answer 3

5voto

LexVjatkin Puntos 126

Puede utilizar el truco hashing . De este modo, en lugar de proporcionar una tabla que asigne palabras a índices, lo que revelaría información sobre las palabras de los datos de entrenamiento, se podría proporcionar simplemente una función hash.

Respondido el 1 de Junio, 2013 por LexVjatkin (126 Puntos )

Answer 4

0voto

Kristopher Johnson Puntos 265

Podría volver a entrenar su modelo con un conjunto de palabras completamente distinto y mostrarlo como prueba de concepto, es decir, sustituir todas las palabras por nombres de animales, por ejemplo, y sugerir a su público objetivo que si repitiera exactamente los pasos de entrenamiento con palabras más relevantes podría replicar exactamente su modelo.

Respondido el 1 de Junio, 2013 por Kristopher Johnson (265 Puntos )

Compartir un modelo entrenado con datos confidenciales

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Compartir un modelo entrenado con datos confidenciales

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: