¿Qué es una buena técnica a utilizar en los datos que tiene muchas variables categóricas con muchos valores posibles? Por ejemplo, digamos que usted está tratando de determinar qué tipo de personas son más propensos a comprar de nuevo desde su tienda en línea y usted tiene E-mail, País, Navegador. Cada variable puede tener 10+ valores posibles (por ejemplo, Correo electrónico: yahoo, gmail, hotmail; País: Estados Unidos, Canadá, Australia, etc.). Además de que también tienen las variables continuas, tales como los compradores de la edad y de lo mucho que han gastado hasta el momento.
He intentado usar una regresión logit pero con tantas variables categóricas, se vuelve demasiado grande y difícil de manejar. Una regresión múltiple también tiene los mismos problemas (demasiadas variables ficticias).
Un árbol de decisión parece funcionar mejor, pero requiere de giro de las variables continuas en las variables categóricas.
Sólo me preguntaba qué tipo de soluciones técnicas/personas han aplicado a situaciones similares.
Nota: puedo usar R y otros stat de software.