Cuál sería una buena manera de ofuscar la información sensible y almacenar los datos de las transacciones de comercio electrónico, para posteriormente realizar un análisis de fraude sobre ellos. Una idea que se me pasó por la cabeza, fue hacer un hash de cada campo sensible con una función de hash (por ejemplo, murmur3 128 bits) y almacenarlo. Como ejemplo, si tuviéramos una columna account holder name
con un valor John Doe
la operación hash produce algún valor de 128 bits para John Doe
. Debido a la propiedad de aleatoriedad estadística introducida por el algoritmo hash, combinada con el efecto cascada, ¿afectaría esto a la propiedad de separabilidad lineal de los datos subyacentes?
EDITAR: A raíz del útil comentario de @AlexeyGrigorev. Entiendo que el mero hecho de ponerle hash al nombre no contribuiría a la ofuscación. Los datos que estoy preparando en este momento para mis intereses académicos, tiene mucha más información sensible (campos como información de la tarjeta, etc ). Tengo todos los campos de los datos con hashing con la misma función de hashing. Los datos con hash tienen ahora una puntuación de 0,71 y un AUCROC de 0,75 con la SVM mejor ajustada (kernel RBF ajustado). Como mi función hashing introduce una distribución aleatoria de los datos en un $2^{128}$ espacio, por lo que supongo que debe haber afectado a la separabilidad lineal de los datos subyacentes. Corríjanme si me equivoco o si me desvío en direcciones irracionales.