Supongamos que tengo una orden de vector donde el primer elemento es el número de visitas a un sitio web en un periodo de tiempo dado por la IP exclusiva con el mayor número de visitas, el segundo elemento es el número de visitas por la IP exclusiva con el segundo número más alto de visitas, y así sucesivamente. Entiendo que puede ser por sitio variaciones, pero que existe en general un supuesto patrón de la forma de este vector? Lo hace, por ejemplo, sigue una ley de potencia de distribución?
Respuesta
¿Demasiados anuncios?No, la única a los visitantes a un sitio web no siguen una ley de potencia.
En los últimos años, ha habido un aumento del rigor en las pruebas de potencia de las reclamaciones de la ley (por ejemplo, Clauset, Shalizi y Newman, 2009). Al parecer, el pasado afirmaciones, que a menudo no eran más que probado y era común para graficar los datos en un registro-registro de escala y se basan en el "ojo de la prueba" para demostrar una línea recta. Ahora que las pruebas formales son más comunes, muchas de las distribuciones de no seguir las leyes de poder.
El mejor de los dos referencias sé que examinar las visitas de los usuarios en la web, Ali y Scarr (2007) y Clauset, Shalizi y Newman (2009).
Ali y Scarr (2007) se veía en una muestra aleatoria de usuario hace clic en una página web de Yahoo y concluyó:
Opinión prevaleciente es que la distribución de los clics en web y páginas vistas sigue una escala de energía libre de la ley de distribución. Sin embargo, hemos encontrado que de una forma estadísticamente significativa a una mejor descripción de los datos es la escala sensible de Zipf - Mandelbrot distribución y que las mezclas que de la misma mejora aún más el ajuste. Los análisis anteriores tienen tres desventajas: que haya usado un pequeño conjunto de candidatos de las distribuciones, analizado fuera de fecha de usuario web de comportamiento (circa 1998) y se utiliza cuestionable metodologías estadísticas. Aunque no podemos excluir que un mejor ajuste de la distribución no puede un día ser encontrados, podemos dicen que para asegurarse de que la escala sensible de Zipf-Mandelbrot distribución proporciona una forma estadísticamente significativa más fuerte ajuste a los datos de la escala de la energía libre de la ley o de Zipf en una variedad de mercados verticales de la Yahoo dominio.
Aquí es un histograma de usuario individual clics más de un mes y sus mismos datos en un registro-registro de parcela, con diferentes modelos que se comparan. Los datos no son, evidentemente, en una recta de log-log de la línea de espera de un libre de escala de distribución de energía.
Clauset, Shalizi y Newman (2009) en comparación con el poder de la ley explicaciones con las hipótesis alternativas mediante el cociente de probabilidad de las pruebas y concluyó que tanto la web de éxitos y de los enlaces "no se puede plausiblemente se considera que sigue una ley de potencia." Sus datos para el ex eran la web de los éxitos de los clientes de America Online, el servicio de Internet en un solo día y el último, eran enlaces a sitios web que se encuentran en 1997, en la web de rastreo de cerca de 200 millones de páginas web. Las imágenes a continuación damos las funciones de distribución acumulativa P(x) y su máxima probabilidad de ley de potencia se ajusta.
Para estos dos conjuntos de datos, Clauset, Shalizi y Newman se encontró que las distribuciones de poder con exponencial de los puntos de corte para modificar el extremo de la cola de la distribución fueron claramente mejor que la pura distribuciones de ley de potencia y que la log-normal de las distribuciones fueron también buenos accesos. (También miraron exponencial y exponencial se extendía hipótesis.)
Si usted tiene un conjunto de datos en la mano y no son sólo de brazos cruzados curioso, debe encajar con diferentes modelos y compararlos (en R: pchisq(2 * (logLik(model1) - logLik(model2)), df = 1, menor.tail = FALSE) ). Confieso que no tengo idea de improviso cómo modelar un cero ajustado ZM modelo. Ron Pearson ha blogueado acerca de la ZM de las distribuciones y al parecer es un paquete de R zipfR. De mí, yo empezaría con un modelo binomial negativo, pero yo no soy un verdadero estadista (y me gustaría sus opiniones).
(También quiero segundo comentarista @richiemorrisroe por encima de que los puntos de datos son probablemente influenciado por factores ajenos al individuo el comportamiento humano, como los programas de rastreo de la web y direcciones IP que representan a muchos de la gente de los equipos).
Los papeles mencionados: