1 votos

Aprendizaje automático para detectar el fraude

Trabajo en una empresa que envía material (un par de miles de envíos al día) por todo el mundo. Para enviar cualquier cosa, el cliente tiene que declarar el peso del envío y declarar el contenido. Para eludir las aduanas, subestiman el material; por ejemplo, el contenido declarado pueden ser camisetas, pero el contenido real pueden ser camisetas de Hugo Boss, que valen más. Normalmente se les pilla mediante inspecciones aleatorias y se les incluye en la lista negra (tengo este conjunto de datos y crece a diario) si se trata de un remitente recurrente, pero esto es costoso para los usuarios honestos del servicio y repercute en el tiempo que tarda en llegar un envío.

Los infractores reincidentes son bloqueados manualmente en función de las direcciones, pero pueden registrarse, y de hecho lo hacen, con una cuenta diferente variando la dirección lo suficiente como para no ser reconocidos. Por ejemplo, una calle falsa podría aplicarse de nuevo a la calle falsa 1. Un humano puede ver la diferencia, pero no tenemos el personal para revisarlo. Creo que el aprendizaje automático podría ser el camino a seguir

Me preguntaba si alguien tendría alguna idea de cómo clasificar estos envíos. Los trabajos de investigación, las ideas, las tormentas de ideas son bienvenidas. Lo que me gustaría hacer es utilizar los envíos capturados para tratar de identificar a los clientes que han modificado ligeramente la dirección con el fin de dirigir las aduanas adecuadamente y hacer nuestra lista negra más eficaz

Gracias por su tiempo

3voto

LexVjatkin Puntos 126

En mi opinión, un enfoque de aprendizaje automático va a ser excesivo para su problema. Lo primero que yo probaría es un sistema parecido a

  1. Dada una nueva dirección, calcule el Distancia Levenshtein a todas las direcciones fraudulentas.
  2. Si la distancia es inferior a algún umbral $\tau$ lo marque como sospechoso.
  3. La forma de tratar a los posibles sospechosos depende de sus necesidades/capacidades, en este punto podría rechazarla directamente o hacer que un humano verifique que es probable que sea un fraude.
  4. Si la dirección es rechazada, añádala a la lista de direcciones fraudulentas.

Es posible que tenga que hacer una búsqueda bibliográfica de funciones de distancia alternativas que tengan en cuenta el tipo de ediciones que espera ver, por ejemplo, puede querer algo que permita transposiciones como Distancia Damerau-Levenshtein .

Dicho esto, no me queda claro cómo es una solución ML para este problema. ¿Clasificación binaria con n-gramas de caracteres como características? No creo que esto funcione bien, pero podría estar equivocado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X