Tengo un montón de cadenas de dirección:
1600 Pennsylvania Ave, Washington, DC 20500 USA
Quiero analizar en sus componentes:
street: 1600 Pennsylvania Ave
city: Washington
province: DC
postcode: 20500
country: USA
Pero, por supuesto, los datos está sucio: se trata de muchos países en muchos idiomas, escrita en diferentes formas, contiene faltas de ortografía, falta de piezas, tiene más basura, etc.
Ahora nuestro enfoque es el uso de reglas combinado con fuzzy nomenclátor de coincidencia, pero nos gustaría explorar técnicas de aprendizaje de máquina. Tenemos la etiqueta de datos de entrenamiento para el aprendizaje supervisado. La pregunta es, ¿qué tipo de máquina de problema de aprendizaje es esto? La verdad es que no parecen ser de agrupación o clasificación o regresión....
El más cercano que se me ocurre sería la clasificación de cada token, pero entonces usted realmente desea clasificar a todos ellos simultáneamente, la satisfacción de restricciones como "no debe haber más de un país"; y realmente hay muchas maneras de convertir una cadena, y quieres probar cada uno y elegir el mejor.... Sé que existe una cosa que se llama estadística en el análisis, pero no se sabe nada sobre él.
Así que: ¿la máquina de aprendizaje de las técnicas de estudio para el análisis de direcciones?