5 votos

Registrar enlace: ponderación coincide con estimación de la calidad de partido

Esta pregunta es algo así como una continuación de una anterior publicación: Utilizando el algoritmo EM para el registro de la vinculación de

Tengo dos conjuntos de datos individuales, algunos de los cuales están en ambos, pero un antes es que no sabe lo que son y no hay identificación id que son comunes a ambos. Lo que sabemos son el nombre, apellido, año de nacimiento y país de nacimiento. Pues yo todavía no entiendo cómo aplicar EM a link, yo soy la conversión de la cadena de nombre a Soundex o NYSIIS y que requieren coincidencias exactas. Es decir, la vinculación de los individuos sólo si su NYSIIS equivalente de primera nombres coinciden, apellidos partido, los años de nacimiento de partido, y el nacimiento de los países partido, y este partido es único, tanto dentro y a través de conjuntos de datos.

Tendría sentido, a continuación, evaluar la calidad del partido por decir computación en el Jaro-Winkler de los nombres del partido pares? Por lo que dicen un par de nombres de Jon Smith y Jonn Smith y NYSIIS(Jon) == NYSIIS(Jonn), ¿tiene sentido calcular Jaro-Winkler (Jon Smith, Jonn Smith)? Y si es así, debería pesar por el análisis correspondiente por el Jaro-Winkler estimaciones?

2voto

Nick Russo Puntos 51

En realidad, me gustaría recomendar el uso de Jaro Winkler para realizar su registro de alineación. En realidad, el original de la motivación detrás del algoritmo. Para cada registro de datos, calcular el JW distancia a cada registro en un conjunto de datos B (de compartir el mismo año de nacimiento y el país). Establecer una coincidencia con el umbral como .9 o .95, y tomar el máximo de partido por encima del umbral para ser su ilnking registro. Todos los registros que se "caen" de este proceso, usted todavía puede usar el JW para generar la confianza de los partidos para la revisión humana. Usted podría utilizar el mejor partido, pero me gustaría recomendar en contra de ella (en el caso de la mayor partido tiene un JW similitud de .6 o algo así).

Esto probablemente será menos eficiente computacionalmente que el original afirmó algoritmo, pero probablemente obtendrá mejores resultados.

Tan lejos como el partido de evaluación de la calidad se va, yo te recomiendo tomar una muestra de los partidos y la revisión manual de los mismos. Confiando en su evaluación a otro registro de la vinculación algoritmo no necesariamente te da resultados exactos. Usted puede tener un alto puntaje en los registros que no se encuentran coincidencias correctas, o puntuaciones bajas en los registros que son.

ACTUALIZACIÓN

Si mi propuesta de que coincida estrategia es demasiado compuationally ineficiente, entonces sí, creo que la estrategia que se describe de preprocesamiento de los datos mediante el soundex y NYSIIS, correspondencia exacta, y, a continuación, el uso de testigos de jehová para evaluar la calidad de los partidos tiene sentido. Algunas cosas a tener en cuenta, sin embargo:

Su algoritmo desempeño deficiente en ciertos tipos de variaciones de nombres que realmente desea capturar, como Jon -- > Jonathan. Puede que desee para preprocesar los primeros nombres mediante la reducción de varaitions a nombres canónicos primera (por desgracia no sé de una base de datos para el logro de esto, pero un posible procedimiento para la construcción de uno que se recomienda aquí). Como alternativa, puede utilizar un método de cascada: coincidencia exacta soundex/NYSIIS procesados apellidos primero y si una lo suficientemente pequeño número de partidos son devueltas, saltar directamente a la evaluación de sus partidos con los testigos de jehová. Si no, estrechar abajo su partido de espacio adicional por la coincidencia en el nombre.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X