4 votos

¿Afecta el hashing a la separabilidad lineal de los datos?

Cuál sería una buena manera de ofuscar la información sensible y almacenar los datos de las transacciones de comercio electrónico, para posteriormente realizar un análisis de fraude sobre ellos. Una idea que se me pasó por la cabeza, fue hacer un hash de cada campo sensible con una función de hash (por ejemplo, murmur3 128 bits) y almacenarlo. Como ejemplo, si tuviéramos una columna account holder name con un valor John Doe la operación hash produce algún valor de 128 bits para John Doe . Debido a la propiedad de aleatoriedad estadística introducida por el algoritmo hash, combinada con el efecto cascada, ¿afectaría esto a la propiedad de separabilidad lineal de los datos subyacentes?

EDITAR: A raíz del útil comentario de @AlexeyGrigorev. Entiendo que el mero hecho de ponerle hash al nombre no contribuiría a la ofuscación. Los datos que estoy preparando en este momento para mis intereses académicos, tiene mucha más información sensible (campos como información de la tarjeta, etc ). Tengo todos los campos de los datos con hashing con la misma función de hashing. Los datos con hash tienen ahora una puntuación de 0,71 y un AUCROC de 0,75 con la SVM mejor ajustada (kernel RBF ajustado). Como mi función hashing introduce una distribución aleatoria de los datos en un $2^{128}$ espacio, por lo que supongo que debe haber afectado a la separabilidad lineal de los datos subyacentes. Corríjanme si me equivoco o si me desvío en direcciones irracionales.

3voto

Geoff Moller Puntos 335

El uso de una representación con hash en un espacio vectorial no es bueno a menos que se utilice un hash sensible a la localidad. En tu caso, estás usando uno que está pensado como un hash no criptográfico (murmur3), por lo que podría preservar algo de localidad. (¡Es bueno que no estés usando una función hash criptográfica!) Esto significa que los puntos similares en tu espacio original son menos similares en tu representación hash, y la información conjunta entre las entradas podría ser destruida.

En general, este tipo de hashing puede destruir la separabilidad lineal fácilmente.

Creo que es muy difícil diseñar un aprendizaje sensible a la privacidad en el que toda la entrada tiene que estar ofuscada. Sugiero que se calcule previamente una similitud/disimilitud de los datos en bruto para encontrar una representación ofuscada que los conserve en el conjunto de datos final.

0voto

fjd Puntos 11

Es una pregunta interesante, mira esto como vowpal wabbit usa hashing en modelos lineales:

https://github.com/JohnLangford/vowpal_wabbit/wiki/Feature-Hashing-and-Extraction

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X