Processing math: 100%

10 votos

Utilizando el algoritmo EM para el registro de la vinculación de

Estoy interesado en la vinculación de los registros a través de 2 conjuntos de datos por nombre, apellidos y año de nacimiento. Podría ser esto factible con el algoritmo EM, y si es así, ¿cómo?

Considere el siguiente registro en el 1 como un ejemplo: Carl McCarthy,1967. Voy a buscar a través de todos los registros en la 2ª conjunto de datos, y asignar un jaro-winkler distancia entre el 1º nombre y Carl y un jaro-winkler distancia entre el apellido y McCarthy. Estos distancia son probabilísticos, como es la distancia entre los años de nacimiento. Los podemos combinar 3 probabilidades (multiplicar? promedio?) en 1.

Ahora viene la regla de decisión de la parte. Permítanos rango de todas las probabilidades de mayor a menor. En primer lugar, queremos que P(primer golpe es el partido) >= umbral. Segundo, también queremos que P(primer golpe es el partido) / P(segundo golpe es el partido) >= umbral si P(segundo golpe es el partido) existe. Tercero, queremos que el primer éxito en este segundo conjunto de datos para que coincida con no más de 1 persona en el 1er conjunto de datos con Carl McCarthy,1967.

Cómo pueden estos umbrales se determina?

Yo prefiero enfoques en Stata y/o Perl.

Véase, por ejemplo:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(Aunque con eso, aún no me siguen plenamente el por qué o cómo, y lo que las entradas y salidas, así como de los supuestos y de lo restrictiva que son).

4voto

Zolani13 Puntos 128

Absolutamente, el algoritmo EM ha sido utilizado para probabilístico de vinculación. Hay un montón de artículos sobre el tema, el siguiente por Winkler puede ser útil en relación teórica detalles:

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

También hay datos que vinculan el software desarrollado por Kevin Campbell ya disponible aquí:

http://the-link-king.com/

El software se puede descargar libremente y Kevin Campbell ofrece soporte para un cargo. El código está escrito en SAS, por lo que tendrá la base de SAS paquete.

0voto

jdotjdot Puntos 129

Hay un software RELAIS que tiene récord de vinculación con:

6) Probabilístico de enlace de registros (Estimación de la Fellegi y Sunter los parámetros del modelo a través de EM (Expectation-Maximization).

RELAIS ha sido implementado en Java y R y tiene una arquitectura de base de datos (MySQL).

Hay algunos más documentación sobre el enlace de registros a disposición de la ESSnet proyecto de Integración de Datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X