En realidad, me gustaría recomendar el uso de Jaro Winkler para realizar su registro de alineación. En realidad, el original de la motivación detrás del algoritmo. Para cada registro de datos, calcular el JW distancia a cada registro en un conjunto de datos B (de compartir el mismo año de nacimiento y el país). Establecer una coincidencia con el umbral como .9 o .95, y tomar el máximo de partido por encima del umbral para ser su ilnking registro. Todos los registros que se "caen" de este proceso, usted todavía puede usar el JW para generar la confianza de los partidos para la revisión humana. Usted podría utilizar el mejor partido, pero me gustaría recomendar en contra de ella (en el caso de la mayor partido tiene un JW similitud de .6 o algo así).
Esto probablemente será menos eficiente computacionalmente que el original afirmó algoritmo, pero probablemente obtendrá mejores resultados.
Tan lejos como el partido de evaluación de la calidad se va, yo te recomiendo tomar una muestra de los partidos y la revisión manual de los mismos. Confiando en su evaluación a otro registro de la vinculación algoritmo no necesariamente te da resultados exactos. Usted puede tener un alto puntaje en los registros que no se encuentran coincidencias correctas, o puntuaciones bajas en los registros que son.
ACTUALIZACIÓN
Si mi propuesta de que coincida estrategia es demasiado compuationally ineficiente, entonces sí, creo que la estrategia que se describe de preprocesamiento de los datos mediante el soundex y NYSIIS, correspondencia exacta, y, a continuación, el uso de testigos de jehová para evaluar la calidad de los partidos tiene sentido. Algunas cosas a tener en cuenta, sin embargo:
Su algoritmo desempeño deficiente en ciertos tipos de variaciones de nombres que realmente desea capturar, como Jon -- > Jonathan. Puede que desee para preprocesar los primeros nombres mediante la reducción de varaitions a nombres canónicos primera (por desgracia no sé de una base de datos para el logro de esto, pero un posible procedimiento para la construcción de uno que se recomienda aquí). Como alternativa, puede utilizar un método de cascada: coincidencia exacta soundex/NYSIIS procesados apellidos primero y si una lo suficientemente pequeño número de partidos son devueltas, saltar directamente a la evaluación de sus partidos con los testigos de jehová. Si no, estrechar abajo su partido de espacio adicional por la coincidencia en el nombre.