El método estándar es ponerlo en los bits o dígitos menos significativos; se puede, por ejemplo, calcular la suma de los dígitos obtener el módulo 10 y añadirlo al final del número, disminuyendo el último dígito en uno si esta suma es mayor que 5 para que toda la estadística quede casi intacta, así:
294.090842 -> sum of digits is 38, thus mark is 8 and we add it like this: 294.0908418
294.121120 -> sum of digits is 22, thus mark is 2 and we add it like this: 294.1211202
...
Este rastro es difícil de notar (a menos que se almacenen los datos de forma adecuada, es decir, con la precisión codificada como el número de dígitos significativos), visible incluso en un subconjunto de los datos y casi imposible de aparecer al azar.
Se puede personalizar la marca utilizando la sal específica del usuario y algún algoritmo de suma de comprobación mejor.
Sin embargo, tenga en cuenta que esta marca sólo será visible en los datos brutos y sus competidores podrán eliminarla con la misma facilidad añadiendo un pequeño ruido o redondeando los números.
2 votos
¿Puede detallar un poco más cuáles son sus preocupaciones? Por ejemplo, ¿por qué se está considerando la marca de agua en lugar de, por ejemplo, calcular y almacenar sumas de comprobación robustas de los datos?
0 votos
Básicamente, nuestros datos llegan con regularidad a los estadísticos externos (de la universidad, por lo que los estudiantes y muchas otras personas echan mano de ellos). Algunos de ellos también trabajan con nuestros competidores. Por el momento, es irreproducible para nosotros que entreguen nuestros datos a otras personas. Ayudaría mucho a la desconfianza si pudiéramos confirmar que no regalan los datos. Pero obviamente los datos no deben ser distorsionados para que puedan hacer su trabajo.