20 votos

Modelización predictiva - ¿Debemos preocuparnos por la modelización mixta?

Para la modelización predictiva, ¿necesitamos preocuparnos por conceptos estadísticos como los efectos aleatorios y la no independencia de las observaciones (medidas repetidas)? Por ejemplo....

Tengo datos de 5 campañas de publicidad directa (realizadas a lo largo de un año) con varios atributos y una bandera de compra. Lo ideal sería utilizar todos estos datos combinados para construir un modelo de compra dados los atributos del cliente en el momento de la campaña. La razón es que el caso de compra es poco frecuente y me gustaría utilizar la mayor cantidad de información posible. Existe la posibilidad de que un cliente determinado participe en entre 1 y 5 de las campañas, lo que significa que no hay independencia entre los registros.

¿Esto importa cuando se utiliza:

1) Un enfoque de aprendizaje automático (por ejemplo, árbol, MLP, SVM)

2) ¿Un enfoque estadístico (regresión logística)?

**ADD:**

Mi opinión sobre los modelos predictivos es que si el modelo funciona, hay que utilizarlo. Así que nunca he considerado realmente la importancia de los supuestos. Pensar en el caso que describo más arriba me hizo reflexionar.

Tomemos algoritmos de aprendizaje automático como MLP and SVM . Se utilizan con éxito para modelar un suceso binario, como mi ejemplo anterior, pero también datos de series temporales que están claramente correlacionados. Sin embargo, muchos utilizan funciones de pérdida que son verosimilitudes y se derivan asumiendo que los errores son iid. Por ejemplo, los árboles potenciados por gradiente en R gbm utiliza funciones de pérdida por desviación derivadas de la binomial ( Página 10 ).

15voto

radpin Puntos 121

He estado me pregunto lo mismo y aquí están mis conclusiones provisionales. Me alegraría si alguien pudiera complementar/corregir esto con sus conocimientos y cualquier referencia sobre este tema.

Si desea probar hipótesis sobre coeficientes de regresión logística comprobando la significación estadística, necesita modelar la correlación entre observaciones (o corregir de otro modo la no independencia) porque, de lo contrario, sus errores estándar serán demasiado pequeños, al menos cuando considere efectos dentro de un grupo. Pero los coeficientes de regresión son insesgados incluso con observaciones correlacionadas, por lo que no debería haber ningún problema en utilizar un modelo de este tipo para la predicción.

En el modelado predictivo, no debería ser necesario tener en cuenta explícitamente la correlación al entrenar el modelo, tanto si se utiliza la regresión logística como cualquier otro enfoque. Sin embargo, si desea utilizar un conjunto de retención para la validación o el cálculo del error fuera de la muestra, debe asegurarse de que las observaciones de cada individuo aparezcan sólo en un conjunto, ya sea de entrenamiento o de validación, pero no en ambos. De lo contrario, su modelo estará prediciendo para individuos sobre los que ya tiene alguna información y no estará obteniendo una lectura real de la capacidad de clasificación fuera de la muestra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X