Utilizando el algoritmo EM para el registro de la vinculación de

Question

Utilizando el algoritmo EM para el registro de la vinculación de

Preguntado el 21 de Febrero, 2013: Cuando se hizo la pregunta
1022 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Abierta: Estado actual de la pregunta

Estoy interesado en la vinculación de los registros a través de 2 conjuntos de datos por nombre, apellidos y año de nacimiento. Podría ser esto factible con el algoritmo EM, y si es así, ¿cómo?

Considere el siguiente registro en el 1 como un ejemplo: Carl McCarthy,1967. Voy a buscar a través de todos los registros en la 2ª conjunto de datos, y asignar un jaro-winkler distancia entre el 1º nombre y Carl y un jaro-winkler distancia entre el apellido y McCarthy. Estos distancia son probabilísticos, como es la distancia entre los años de nacimiento. Los podemos combinar 3 probabilidades (multiplicar? promedio?) en 1.

Ahora viene la regla de decisión de la parte. Permítanos rango de todas las probabilidades de mayor a menor. En primer lugar, queremos que P(primer golpe es el partido) >= umbral. Segundo, también queremos que P(primer golpe es el partido) / P(segundo golpe es el partido) >= umbral si P(segundo golpe es el partido) existe. Tercero, queremos que el primer éxito en este segundo conjunto de datos para que coincida con no más de 1 persona en el 1er conjunto de datos con Carl McCarthy,1967.

Cómo pueden estos umbrales se determina?

Yo prefiero enfoques en Stata y/o Perl.

Véase, por ejemplo:

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1479910/pdf/amia2003_0259.pdf

(Aunque con eso, aún no me siguen plenamente el por qué o cómo, y lo que las entradas y salidas, así como de los supuestos y de lo restrictiva que son).

Preguntado el 21 de Febrero, 2013 por nachocab

Answer 1

2 Respuestas

Answer 2

4voto

Zolani13 Puntos 128

Absolutamente, el algoritmo EM ha sido utilizado para probabilístico de vinculación. Hay un montón de artículos sobre el tema, el siguiente por Winkler puede ser útil en relación teórica detalles:

http://www.census.gov.edgekey.net/srd/papers/pdf/rr2000-05.pdf

También hay datos que vinculan el software desarrollado por Kevin Campbell ya disponible aquí:

http://the-link-king.com/

El software se puede descargar libremente y Kevin Campbell ofrece soporte para un cargo. El código está escrito en SAS, por lo que tendrá la base de SAS paquete.

Respondido el 21 de Febrero, 2013 por Zolani13 (128 Puntos )

Answer 3

0voto

jdotjdot Puntos 129

Hay un software RELAIS que tiene récord de vinculación con:

6) Probabilístico de enlace de registros (Estimación de la Fellegi y Sunter los parámetros del modelo a través de EM (Expectation-Maximization).

RELAIS ha sido implementado en Java y R y tiene una arquitectura de base de datos (MySQL).

Hay algunos más documentación sobre el enlace de registros a disposición de la ESSnet proyecto de Integración de Datos.

Respondido el 2 de Marzo, 2013 por jdotjdot (129 Puntos )

Utilizando el algoritmo EM para el registro de la vinculación de

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Utilizando el algoritmo EM para el registro de la vinculación de

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: