Tengo un gran cuidado de la salud base de datos de reclamaciones con 1.6 millones de sujetos y estoy interesado en hacer un estudio de cohorte con la puntuación de la propensión. He presentado mi puntaje de propensión con un modelo logístico. El problema es que tengo cerca de 260.000 sujetos con la exposición a la altura, lo ideal en una relación 1:3 relación, para el resto de la muestra.
He intentado MatchIt en R, la subdivisión de mi muestra en el código postal áreas de nivel (haciendo, básicamente, la coincidencia exacta para el código postal y luego buscando más cercano PS). Esto es rápido porque MatchIt puede manejar muchos pequeños conjuntos de datos con facilidad, pero el final igualado conjunto de datos no es tan equilibrada como debe ser: con tantos controles.
MatchIt básicamente se bloquea cuando intenta combinar más de 30.000 o por lo que los sujetos en un momento.* He intentado utilizar el SAS en nuestro departamento rápido servidor UNIX utilizando esta macro, pero también se estrelló y se está llevando a muchas, muchas horas. Creo que debe haber una mejor manera, dado que no creo que mi conjunto de datos es que la enorme?
Entonces, mi pregunta es ¿cómo lo haría, 1:3 coincidente con un conjunto de datos de este tamaño? No necesito algo asombrosamente rápido, pero quiero estar seguro de que voy a obtener resultados fiables después de un par de horas.
*GRAN advertencia: Para cualquier R solución que puede necesitar horas para correr, estoy limitado a usar 32 bits R en mi servidor de office, que es una gran decepción.