Tengo cuatro bases de datos de libros que he reunido de varias fuentes, sitios web, etc. Me gustaría fusionar las bases de datos, pero me encuentro con un importante problema de fusión, ya que no hay una identificación de coincidencia "perfecta" entre las bases de datos. Cada base de datos tiene el título y la fecha de publicación, pero no es perfecta. Por ejemplo, podría tener las siguientes entradas para el título y la fecha de publicación:
- (1) El guardián y el centeno, 16/7/51
- (2) El guardián y el centeno, 16/7/51
- (3) El guardián y el centeno, 1951
- (4) El guardián y el centeno (1951), [desaparecido]
Así que he probado cosas como deshacerme de las palabras comunes, los espacios y otros caracteres que no son letras, usar sólo los primeros 15 caracteres del título y sólo el año de la publicación (o el mes y el año), pero creo que no tengo una solución o enfoque completo para conseguir la mejor coincidencia.
¿Alguien tiene alguna sugerencia sobre enfoques, software, un algoritmo que pueda seguir o buscar, etc. para ayudarme a conseguir la mejor coincidencia posible? (Las bases de datos oscilan entre 9.000 y 15.000 observaciones, por lo que hacerlo manualmente no es realmente una opción)
Trabajo principalmente en Stata, pero tengo conocimientos básicos de R y Python si eso orienta alguna respuesta.
0 votos
Se puede decir mucho sobre esto, pero para empezar, tenga en cuenta que Stata tiene un
soundex
función.1 votos
Google tiene el mejor motor de búsqueda del mundo. Seguro que han encontrado buenas soluciones a tu problema. Pero algunos de los mejores trucos pueden ser propios. Ahora no tienen exactamente el mismo problema que tú porque pueden hacer listas largas. Pero sí las ordenan en base a algoritmos como el que tú buscas. Con Google, Yahoo y tantos otros motores de búsqueda por ahí estoy seguro de que debe haber una vasta literatura en revistas abiertas que podrías explorar.
0 votos
Algunos artículos sobre esto usando SAS (pero tal vez los métodos son transferibles). Jones y Zdeb . Heath et al. Sambidi et al.
0 votos
Esto me parece un tema de minería de textos y CV también incluye la minería de datos entre sus temas apropiados. Sin embargo, si no obtienes respuestas útiles después de un tiempo, podrías preguntar a los moderadores si esta pregunta podría ser migrada a Stack Overflow (para la programación general), o dba (base de datos específica) para obtener fuentes de ayuda alternativas. Buena suerte.
0 votos
Gracias a todos los que han aportado respuestas y sugerencias. Tengo un par de rutas que estoy explorando basándome en estas magníficas respuestas. Gracias de nuevo.