4 votos

Ocupan de Big Data y un montón de Variables

¿Qué es una buena técnica a utilizar en los datos que tiene muchas variables categóricas con muchos valores posibles? Por ejemplo, digamos que usted está tratando de determinar qué tipo de personas son más propensos a comprar de nuevo desde su tienda en línea y usted tiene E-mail, País, Navegador. Cada variable puede tener 10+ valores posibles (por ejemplo, Correo electrónico: yahoo, gmail, hotmail; País: Estados Unidos, Canadá, Australia, etc.). Además de que también tienen las variables continuas, tales como los compradores de la edad y de lo mucho que han gastado hasta el momento.

He intentado usar una regresión logit pero con tantas variables categóricas, se vuelve demasiado grande y difícil de manejar. Una regresión múltiple también tiene los mismos problemas (demasiadas variables ficticias).

Un árbol de decisión parece funcionar mejor, pero requiere de giro de las variables continuas en las variables categóricas.

Sólo me preguntaba qué tipo de soluciones técnicas/personas han aplicado a situaciones similares.

Nota: puedo usar R y otros stat de software.

1voto

Tim Puntos 266

Usted puede tratar de Bosque Aleatorio. Usted puede tener variables categóricas con hasta 32 valores distintos. Es un conjunto de método,un método rápido y relativamente precisa para la predicción.

si usted se siente cómodo con R, recomiendo el uso de Sonajero interfaz gráfica de usuario. Se puede instalar como cualquier otro paquete. En el Sonajero que usted puede hacer minería de datos en un punto y haga clic en camino y obtener el código después, así que usted no tiene que preocuparse por el gasto demasiado tiempo en diferentes paquetes.

Usted puede tratar muchos de los algoritmos incluyendo al Azar Bosque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X