Estoy interesado en la vinculación de los registros a través de 2 conjuntos de datos por nombre, apellidos y año de nacimiento. Podría ser esto factible con el algoritmo EM, y si es así, ¿cómo?
Considere el siguiente registro en el 1 como un ejemplo: Carl McCarthy,1967. Voy a buscar a través de todos los registros en la 2ª conjunto de datos, y asignar un jaro-winkler distancia entre el 1º nombre y Carl y un jaro-winkler distancia entre el apellido y McCarthy. Estos distancia son probabilísticos, como es la distancia entre los años de nacimiento. Los podemos combinar 3 probabilidades (multiplicar? promedio?) en 1.
Ahora viene la regla de decisión de la parte. Permítanos rango de todas las probabilidades de mayor a menor. En primer lugar, queremos que P(primer golpe es el partido) >= umbral. Segundo, también queremos que P(primer golpe es el partido) / P(segundo golpe es el partido) >= umbral si P(segundo golpe es el partido) existe. Tercero, queremos que el primer éxito en este segundo conjunto de datos para que coincida con no más de 1 persona en el 1er conjunto de datos con Carl McCarthy,1967.
Cómo pueden estos umbrales se determina?
Yo prefiero enfoques en Stata y/o Perl.
Véase, por ejemplo:
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf
(Aunque con eso, aún no me siguen plenamente el por qué o cómo, y lo que las entradas y salidas, así como de los supuestos y de lo restrictiva que son).