10 votos

Construir un camino de árbol de probabilidad para los viajes a través de un sitio web

Actualmente estoy haciendo el análisis en un sitio web que requiere que puedo crear un árbol de decisión diagrama que muestra la ruta probable que la gente siempre llegan en el sitio web. Estoy tratando con un data.frame que muestra las rutas de acceso de todos los clientes para el sitio, a partir de la página de inicio. Por ejemplo, un cliente podría tomar la siguiente ruta:

Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3

así que este cliente tendría un 3 página de viaje. Lo que quiero intentar hacer en R es combinar todos los clientes de las rutas y así asignar una probabilidad a un cliente después de un cierto camino en el sitio. Por ejemplo, si yo fuera a examinar todos los caminos que me podría encontrar que el 34% de las personas que llegan a la página de inicio ir a la Cocina de los elementos de la página'. Hace R tienen este establecimiento?

He buscado diferentes métodos a través de la rpart y partykit paquetes, pero que no parece ser de ninguna ayuda.

Cualquier dirigir en la dirección correcta para este es muy apreciada!

1voto

rutherford Puntos 165

No es una manera de empezar, es tener un $n \times n$ matriz (decir $M_{n \times n}$) donde $n$ es el número de páginas. Luego, basándose en los datos de incremento elemento de la matriz $M_{rc}$ por uno cada vez que un usuario salto de página $r$ a página de $c$. Que da la probabilidades de transición.

Su primera pregunta ya está contestada por esto: "¿por ciento de los usuarios en la página de inicio (es decir la página 1) el viaje junto a, digamos, Artículos de Cocina (digamos página 2)?"

$\frac{M_{12}}{ \sum_c M_{1c}}$

O esto es demasiado simplista?

0voto

IEORTools Puntos 23

Parece que están tratando de recrear el algoritmo PageRank de Google. La mayoría de los algoritmo PageRank fue desarrollado utilizando Cadenas de Markov. Usted puede encontrar una gran cantidad de menciones de desarrollo PageRank métodos en R.

igraph.sourceforge.net/doc/R/page.rank.htm

0voto

sammyo Puntos 245

Por lo que veo aquí, estoy de acuerdo en que igraphs / Cadenas de Markov es probablemente el camino a seguir, sin embargo, usted podría utilizar definitivamente rpart y/o el partykit.

Es difícil para mí dar una respuesta sencilla con su limitada ejemplo, pero me pueden explicar en general, cómo lo haría.

Usted quiere mirar donde todos los usuarios había sido, y resumir en una cadena por ejemplo

"Home / product4 / product3 / product4 / buynow"
"Home / product3 / buynow"
"Home / product3 / product4"

Entonces, usted puede segmentar a los usuarios en categorías, decir que terminó en la página "comprar ahora", y quienes no. Entonces usted puede simplemente empezar a predecir en que la terminal de resultado. En este ejemplo, tal vez usted podría encontrar que las personas que hacían la mayoría de la tienda de la comparación que hizo / no comprar algo.

Usted también podría hacer más variables, tales como "¿qué fue de la página antes de que el buynow página", "¿cuántas páginas hizo que visitar antes de comprar algo" o "¿cuándo crear su primera cuenta", y podría agregar los indicadores para su análisis.

Hay un montón de maneras diferentes que usted puede ir, y este comienza a responder a diferentes preguntas, pero mi punto es que usted podría utilizar los árboles y de algunos problemas que podrían ser una más rápida y sencilla ruta hacia el conocimiento.

Por el camino, usted tendría que hacer no numéricos de las variables de factores mediante el uso de factor o as.factor, si usted va a utilizar parte. Partido que tiene algunas viñetas para empezar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X