EDIT: En respuesta a la sugerencia, voy a incluir más contexto del mundo real.
Estoy tratando de predecir la presencia de las tuberías de plomo en las casas más antiguas, con el propósito de renovaciones. Tengo N heterogéneo casas. He construido un modelo para predecir si la casa tiene tuberías de plomo basado en los factores obvios como la edad, el tipo de ingresos de barrio, etc. Ahora necesito para evaluar la exactitud del modelo.
Tengo una base de datos de conjunto de registros históricos que fundamentalmente se basa en una persona inspecciones de donde es a menudo el caso de que la inspección de personas que no pueden entrar en la casa para ver si hay plomo o no (la gente no se fía, no hay nadie en casa, etc). Así, los resultados posibles son:
[no one opens door / refuse to open, door opens: no lead, door opens: lead present]
No podemos saber lo que hay detrás de el sin abrir las puertas.
Segundo arruga; yo uso mi modelo de clasificación para enviar a un grupo diferente de personas a la oferta de renovación de servicios en la alta probabilidad de plomo casas. Estas personas comprobable tienen un tiempo más fácil de entrar en la casa para hacer una determinación (la gente parece que les gusta más).
Por tanto, y dado que la aplicación del modelo de clasificación de tratamiento hace que sea más probable que el de recibir una información más completa sobre casa de plomo de estado, ¿cómo puedo decirle lo bueno que mi modelo es frente a la no-modelo de caso? ¿Cómo puedo separar las contribuciones de la modelo frente a sólo el envío de diferentes personas al evaluar el éxito: encontrar plomo en las casas"?