2 votos

Externalizar las tareas de aprendizaje automático manteniendo la confidencialidad de la información

Tengo algunos datos en bruto que me gustaría transformar en un conjunto de datos, y luego pedir a las partes externas que me ayuden a construir el modelo (con criterios como la minimización de la pérdida logarítmica, la maximización del área bajo la curva).

  1. Si paso el conjunto de datos a una parte externa, ¿es bastante improbable que el conjunto de datos pueda volver a convertirse en datos brutos (que podrían ser confidenciales sólo para uso interno)?

  2. La subcontratación es viable porque podría pasar un conjunto de datos a partes externas. ¿Es justo decir que el aprendizaje automático (y la IA en general) probablemente necesitará conjuntos de datos durante años? Si un día no hay más conjunto de datos, no sé cómo subcontratar sin mantener mi información confidencial.

Gracias de antemano.

1voto

Pitto Puntos 958

Interpreto tu pregunta como una forma de enmascarar tu conjunto de datos antes de compartirlo con una parte externa (proveedor de análisis) para su análisis; después de que el análisis haya construido un modelo de trabajo útil, te gustaría desplegarlo internamente para puntuar/predecir los resultados requeridos en datos reales.

Puedes seguir este enfoque:

  1. Organice su conjunto de datos en un modelo de datos totalmente normalizado, de modo que su tabla de "hechos" esté compuesta únicamente por claves externas. Por ejemplo, los atributos de usuario se sustituyen por un número de clave de usuario que hace referencia a su tabla interna de usuarios. Los atributos numéricos podrían renombrarse como NUM1, NUM2, etc. y eliminar cualquier unidad como dólares/kg/etc. Esto no es tan simple como parece, ya que el enfoque exacto se basa en el caso de uso y el proceso de negocio que el conjunto de datos está representando.

  2. Comparta el conjunto de datos y atributos con el proveedor junto con alguna hipótesis que indique cómo puede afectar cada atributo al resultado. Esto ayudaría al analista a entender los datos. El proveedor podría entonces construir el modelo utilizando este conjunto de datos de entrenamiento/prueba y enviarlo de vuelta para que usted lo implemente.

  3. Mientras se despliega el modelo en la empresa, hay que volver a cambiar todos los atributos anonimizados a su forma original y volver a entrenar el modelo; o transformar los nuevos datos en la forma anonimizada para que el modelo pueda puntuar/predecir.

Una gran desventaja de este enfoque es que el analista no puede añadir o enriquecer el conjunto de datos con información externa que podría mejorar la precisión de forma significativa. Por ejemplo, normalmente se suprime la dirección de un cliente para proteger su privacidad y el análisis geoespacial puede proporcionar fuertes indicadores de cómo se comporta un cliente. Pero como esta información se pierde al anonimizar el conjunto de datos, el modelo resultante es más pobre que de otro modo. Otra desventaja es que un equipo de analistas con experiencia habría aplicado ciertas ideas o hipótesis al problema y ayudaría a alcanzar un buen modelo rápidamente, el equipo puede no ser capaz de aplicar esta idea si la mayoría de los atributos son anónimos.

Para su segunda consulta, suponiendo que necesite un proveedor externo para construir modelos de aprendizaje automático, siempre tendrá que enviarle conjuntos de datos de entrenamiento en el futuro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X