Para la modelización predictiva, ¿necesitamos preocuparnos por conceptos estadísticos como los efectos aleatorios y la no independencia de las observaciones (medidas repetidas)? Por ejemplo....
Tengo datos de 5 campañas de publicidad directa (realizadas a lo largo de un año) con varios atributos y una bandera de compra. Lo ideal sería utilizar todos estos datos combinados para construir un modelo de compra dados los atributos del cliente en el momento de la campaña. La razón es que el caso de compra es poco frecuente y me gustaría utilizar la mayor cantidad de información posible. Existe la posibilidad de que un cliente determinado participe en entre 1 y 5 de las campañas, lo que significa que no hay independencia entre los registros.
¿Esto importa cuando se utiliza:
1) Un enfoque de aprendizaje automático (por ejemplo, árbol, MLP, SVM)
2) ¿Un enfoque estadístico (regresión logística)?
**ADD:**
Mi opinión sobre los modelos predictivos es que si el modelo funciona, hay que utilizarlo. Así que nunca he considerado realmente la importancia de los supuestos. Pensar en el caso que describo más arriba me hizo reflexionar.
Tomemos algoritmos de aprendizaje automático como MLP and SVM
. Se utilizan con éxito para modelar un suceso binario, como mi ejemplo anterior, pero también datos de series temporales que están claramente correlacionados. Sin embargo, muchos utilizan funciones de pérdida que son verosimilitudes y se derivan asumiendo que los errores son iid. Por ejemplo, los árboles potenciados por gradiente en R gbm
utiliza funciones de pérdida por desviación derivadas de la binomial ( Página 10 ).