Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

7 votos

Puntuación de propensión coincidencia con datos de gran tamaño

Tengo un gran cuidado de la salud base de datos de reclamaciones con 1.6 millones de sujetos y estoy interesado en hacer un estudio de cohorte con la puntuación de la propensión. He presentado mi puntaje de propensión con un modelo logístico. El problema es que tengo cerca de 260.000 sujetos con la exposición a la altura, lo ideal en una relación 1:3 relación, para el resto de la muestra.

He intentado MatchIt en R, la subdivisión de mi muestra en el código postal áreas de nivel (haciendo, básicamente, la coincidencia exacta para el código postal y luego buscando más cercano PS). Esto es rápido porque MatchIt puede manejar muchos pequeños conjuntos de datos con facilidad, pero el final igualado conjunto de datos no es tan equilibrada como debe ser: con tantos controles.

MatchIt básicamente se bloquea cuando intenta combinar más de 30.000 o por lo que los sujetos en un momento.* He intentado utilizar el SAS en nuestro departamento rápido servidor UNIX utilizando esta macro, pero también se estrelló y se está llevando a muchas, muchas horas. Creo que debe haber una mejor manera, dado que no creo que mi conjunto de datos es que la enorme?

Entonces, mi pregunta es ¿cómo lo haría, 1:3 coincidente con un conjunto de datos de este tamaño? No necesito algo asombrosamente rápido, pero quiero estar seguro de que voy a obtener resultados fiables después de un par de horas.

*GRAN advertencia: Para cualquier R solución que puede necesitar horas para correr, estoy limitado a usar 32 bits R en mi servidor de office, que es una gran decepción.

1voto

MyFamily Puntos 200

Has probado el vecino más cercano en MatchIt (method = "más cercano")? Como es un "codiciosos" algoritmo, debe ser rápido, incluso para tamaños de muestras más grandes. Si por alguna razón esto no funciona, usted podría programar el vecino más cercano a ti mismo, permitiendo 3 partidos antes de una observación en el grupo de tratamiento es "utilizado". Obviamente la coincidencia de que será bastante óptimo, pero podría ser una buena solución en la que el conjunto de datos es demasiado grande para "óptima" la coincidencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X