15 votos

Cómo hacer multivariante de la máquina de aprendizaje? (la predicción de múltiples variables dependientes)

Estoy buscando para predecir los grupos de elementos de que alguien va a comprar... es decir, tengo varias, colinear variables dependientes.

Lugar de construcción de 7 o de manera independiente de los modelos para predecir la probabilidad de que una persona la compra de cada uno de los 7 elementos y, a continuación, la combinación de los resultados, ¿qué métodos debo buscar en un modelo que representa las relaciones entre el 7 relativa, las variables dependientes (cosas que se pueden comprar).

Estoy usando R como un lenguaje de programación, por lo que cualquier R el asesoramiento específico y es de agradecer.

8voto

tuomassalo Puntos 376

Con base en la descripción, aparece una regresión logística multinomial es la adecuada. Suponiendo que el resultado, es un factor de 7 niveles (una de las 7 opciones de compra), entonces se puede predecir rápidamente pertenencia mediante un modelo de regresión logística multinomial (ver ?multinom en la nnet paquete en R). Si su resultado no puede ser combinado en un factor de 7 niveles, a continuación, un análisis de cluster sería necesario agrupar los elementos juntos antes del ajuste de la regresión logística multinomial.

3voto

pauly Puntos 932

Una opción es obtener las frecuencias de todas las combinaciones de las compras de productos; seleccione el par de combinaciones más comunes; luego construir un modelo de regresión para predecir cada individuo de la combinación elegida. E. g., con una regresión logística binaria, se podría predecir la compra de una) de Vino Blanco, Queso, Fresas y Uvas vs b) de Vino tinto, queso Cheddar y Gouda. Con más de 2 combinaciones de estos, o si desea incluir la categoría de "ninguna de las anteriores," la regresión logística multinomial probablemente sería el método de elección.

Tenga en cuenta que incluso sólo el común de los combos significa que usted tendrá más viable números de cada uno, pero que va a estar excluyendo a los demás, al menos a partir de este procedimiento. Me imagino 7 elementos de la creación de decenas de combos de cada uno elegido por al menos un par de personas. Este es posiblemente demasiadas categorías para su tamaño de la muestra. Por otra parte, si un combo fueron elegidos por sólo un par de personas, su modelo tendría muy poca información para trabajar con.

Otra opción es utilizar el análisis cluster para llegar a un par de conjuntos de elementos que tienden a ser comprado juntos. Con 7 elementos, usted probablemente va a terminar con menos de 4 clusters, lo que podría hacer su tarea más fácil. Si se intenta un análisis de cluster y encontrar los resultados inviable, no hay ninguna razón por qué usted tiene que utilizarlos: sólo tienes que ir de nuevo a la frecuencia enfoque basado en el descrito anteriormente. En este caso, si he leído bien, usted está buscando el más descriptivo e interesante gama de categorías, y en el establecimiento de que, usted no necesita preocuparse acerca de los grados de libertad o de comparaciones múltiples o cualquier tipo de inquietudes que se puedan aplicar si estuviera tratando de múltiples métodos en la realización de algunos inferencial de la prueba.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X