Interpreto tu pregunta como una forma de enmascarar tu conjunto de datos antes de compartirlo con una parte externa (proveedor de análisis) para su análisis; después de que el análisis haya construido un modelo de trabajo útil, te gustaría desplegarlo internamente para puntuar/predecir los resultados requeridos en datos reales.
Puedes seguir este enfoque:
-
Organice su conjunto de datos en un modelo de datos totalmente normalizado, de modo que su tabla de "hechos" esté compuesta únicamente por claves externas. Por ejemplo, los atributos de usuario se sustituyen por un número de clave de usuario que hace referencia a su tabla interna de usuarios. Los atributos numéricos podrían renombrarse como NUM1, NUM2, etc. y eliminar cualquier unidad como dólares/kg/etc. Esto no es tan simple como parece, ya que el enfoque exacto se basa en el caso de uso y el proceso de negocio que el conjunto de datos está representando.
-
Comparta el conjunto de datos y atributos con el proveedor junto con alguna hipótesis que indique cómo puede afectar cada atributo al resultado. Esto ayudaría al analista a entender los datos. El proveedor podría entonces construir el modelo utilizando este conjunto de datos de entrenamiento/prueba y enviarlo de vuelta para que usted lo implemente.
-
Mientras se despliega el modelo en la empresa, hay que volver a cambiar todos los atributos anonimizados a su forma original y volver a entrenar el modelo; o transformar los nuevos datos en la forma anonimizada para que el modelo pueda puntuar/predecir.
Una gran desventaja de este enfoque es que el analista no puede añadir o enriquecer el conjunto de datos con información externa que podría mejorar la precisión de forma significativa. Por ejemplo, normalmente se suprime la dirección de un cliente para proteger su privacidad y el análisis geoespacial puede proporcionar fuertes indicadores de cómo se comporta un cliente. Pero como esta información se pierde al anonimizar el conjunto de datos, el modelo resultante es más pobre que de otro modo. Otra desventaja es que un equipo de analistas con experiencia habría aplicado ciertas ideas o hipótesis al problema y ayudaría a alcanzar un buen modelo rápidamente, el equipo puede no ser capaz de aplicar esta idea si la mayoría de los atributos son anónimos.
Para su segunda consulta, suponiendo que necesite un proveedor externo para construir modelos de aprendizaje automático, siempre tendrá que enviarle conjuntos de datos de entrenamiento en el futuro.