8 votos

Marca de agua en los datos para la minería de datos

Estoy en un grupo de trabajo que analiza datos médicos. Por desgracia, hay mucha desconfianza si los datos medidos llegan a un competidor o son manipulados.

Así que me preguntaba si habría una manera de "marcar con agua" los datos medidos antes de que salgan de la casa de una manera que no afecte a algunas estadísticas elegidas. Buscando encontré sobre todo soluciones comerciales para marcar el audio o el vídeo, lo que no es aplicable para nosotros.

2 votos

¿Puede detallar un poco más cuáles son sus preocupaciones? Por ejemplo, ¿por qué se está considerando la marca de agua en lugar de, por ejemplo, calcular y almacenar sumas de comprobación robustas de los datos?

0 votos

Básicamente, nuestros datos llegan con regularidad a los estadísticos externos (de la universidad, por lo que los estudiantes y muchas otras personas echan mano de ellos). Algunos de ellos también trabajan con nuestros competidores. Por el momento, es irreproducible para nosotros que entreguen nuestros datos a otras personas. Ayudaría mucho a la desconfianza si pudiéramos confirmar que no regalan los datos. Pero obviamente los datos no deben ser distorsionados para que puedan hacer su trabajo.

12voto

ESRogs Puntos 1381

El método estándar es ponerlo en los bits o dígitos menos significativos; se puede, por ejemplo, calcular la suma de los dígitos obtener el módulo 10 y añadirlo al final del número, disminuyendo el último dígito en uno si esta suma es mayor que 5 para que toda la estadística quede casi intacta, así:

294.090842 -> sum of digits is 38, thus mark is 8 and we add it like this: 294.0908418
294.121120 -> sum of digits is 22, thus mark is 2 and we add it like this: 294.1211202
 ...

Este rastro es difícil de notar (a menos que se almacenen los datos de forma adecuada, es decir, con la precisión codificada como el número de dígitos significativos), visible incluso en un subconjunto de los datos y casi imposible de aparecer al azar.
Se puede personalizar la marca utilizando la sal específica del usuario y algún algoritmo de suma de comprobación mejor.

Sin embargo, tenga en cuenta que esta marca sólo será visible en los datos brutos y sus competidores podrán eliminarla con la misma facilidad añadiendo un pequeño ruido o redondeando los números.

0 votos

Parece el camino a seguir. ¿No recuerda una implementación por defecto?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X