Me encuentro con un problema aparentemente fácil, pero llevo varias semanas sin encontrar una solución adecuada.
Tengo bastantes datos de sondeos/encuestas (decenas de miles de encuestados, digamos 50.000 por conjunto de datos), procedentes de algo que espero que se denomine encuesta de diseño complejo con ponderaciones, estratificación, encaminamiento específico y demás. Para cada encuestado, hay cientos de variables, como datos demográficos (edad, región...) y luego variables mayoritariamente binarias (como mucho, categóricas).
Tengo más experiencia en informática y aprendizaje automático, y he tenido que aprender mucho sobre el tema. estadísticas clásicas de encuestas y metodología. Ahora quiero aplicar aprendizaje automático clásico a esos datos (por ejemplo, predecir algunos valores que faltan para un subconjunto de encuestados, básicamente una tarea de clasificación). Pero no encuentro la forma adecuada de hacerlo. ¿Cómo debería incorporar esos estratos, ponderaciones o rutas (como: si la pregunta 1 se responde con la opción 2, haga la pregunta 3, de lo contrario sáltela)?
La simple aplicación de mis modelos (árboles, regresión logística, SVM, XGBoost...) parece peligrosa (y, fallan en la mayoría de los casos), ya que suelen suponer que los datos proceden de una muestra aleatoria simple o iid.
Muchos métodos al menos tienen pesas, pero no ayuda mucho. Además, no está claro cómo debo combinar las clases desequilibradas y las ponderaciones dadas por la definición de la encuesta, sin hablar de esas cosas de estratificación. Además, los modelos de resultados deberían estar bien calibrados: la distribución predicha debería ser muy parecida a la original. El buen rendimiento de la predicción no es el único criterio aquí. He cambiado la métrica de optimización para tener esto en cuenta también (por ejemplo distancia de la distribución predicha a partir de la distribución verdadera + precisión/MCC) y ayudó en algunos casos, por qué paralizar el rendimiento en otros.
¿Hay alguna forma canónica de solucionar este problema? Me parece un área de investigación muy poco valorada. OMI muchas encuestas podrían beneficiarse de la potencia de ML, pero no hay fuentes. Como si fueran dos mundos que no interactúan entre sí.
Lo que he encontrado hasta ahora:
-
http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
Por ejemplo, solo conozco un artículo (Toth & Eltinge, 2011) sobre cómo hacer árboles de regresión cuando los datos proceden de una encuesta por muestreo compleja.
-
http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
En un metaanálisis reciente de 150 trabajos de investigación que analizaban varias encuestas con diseños muestrales complejos, se constata que los errores analíticos causados por el desconocimiento o el uso incorrecto de las características del diseño muestral complejo eran frecuentes.
-
https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Preguntas relacionadas con el CV, pero ninguna de ellas contiene una respuesta utilizable sobre cómo enfocar esto (o no hay respuesta, o no es lo que pido, o presenta recomendaciones engañosas):
- Análisis de correspondencias con datos de encuestas complejas
- Aprendizaje automático con datos de encuestas ponderados / complejos
- Validación cruzada tras LASSO en datos de encuestas complejas
- ¿Separación en la regresión logística en una encuesta compleja?
- Ajuste de modelos multinivel a datos de encuestas complejas en R