He sido encargado de detectar si un bot es hacer clic al azar alrededor de una página web. Yo estaba pensando en dividir la página web en 20 por 20 píxeles cuadrados y, a continuación, haga clic en asignar a cada una plaza a partir de las coordenadas x e y de un clic. Puedo, a continuación, tomar una muestra de clics, y el uso de la Chi-Cuadrado para determinar si el clic de la muestra es de la la distribución al azar o a los humanos de distribución. ¿Ustedes qué piensan? Hay una forma más inteligente manera de hacer esto por los clics?
Respuesta
¿Demasiados anuncios?Supongo que su intención es identificar el agente humano o al azar por la elección de la persona con los más pequeños de la chi-cuadrado (suponiendo que usted puede obtener una espera patrón humano), esencialmente a tratarlo como un problema de clasificación. Si usted está tratando como, es posible que desee considerar los costos de los dos tipos de error en la clasificación de error.
Su enfoque puede ser suficiente (si usted puede conseguir los datos para el caso de los humanos), pero tengo algunos comentarios:
1) el mismo tamaño de clics es poco probable que sea lo suficientemente alta como para recoger nada con un chi-cuadrado, sobre todo en una de 20x20; sugeriría que se necesita algo más de 500 clics, probablemente más como un par de miles. Eso es un montón de clics.
2) si en cambio desea en lugar de tratarlo como un problema de prueba de hipótesis, sería necesario
a) sólo identificar al agente como humanos si el comportamiento es incompatible con clic aleatorio. El problema con esto es que por defecto dice que eres un bot ... que si hay sólo un par de clics puede clasificar una gran cantidad de seres humanos como robots.
b) sólo actúan como si ellos no son humanos cuando el clic comportamiento es incompatible con el comportamiento humano, incluso cuando el partido con clic aleatorio es mejor, entonces usted acaba de comprobar la coherencia con un conocido previamente patrón humano --- el problema es diferente, los seres humanos pueden presentar diferentes patrones de
De nuevo, si esto se hace con un chi-cuadrado, el tamaño de la muestra puede ser un problema.
3) no hay información en una secuencia de clics que puede ayudar a precisar la no aleatoriedad mucho mejor. Es decir, yo sugiero que usted considere que en lugar de la serie-la dependencia humana de los clics en comparación con clic aleatorio.
4) tal vez incluso más fácil, usted podría considerar la distribución de la media de la distancia entre clics consecutivos, en comparación con el clic aleatorio, o la distribución del tiempo entre clics (por ejemplo, un robot puede hacer clic rápido, o un bot puede tener el tiempo entre clics ajenos a la distancia, donde un ser humano tiene que mover un ratón de cursor de un lugar a otro, por lo que puede tener relación particular entre el tiempo y la distancia). Esto es probable que se muestre un tema en el relativamente pequeño tamaño de la muestra.
[También puede ser que los humanos y los robots tienen muy diferentes números de clics. Que podría ser útil]
5) Si usted recibe los datos en los seres humanos, usted podría considerar la posibilidad de intentar identificar algunos tell-tale características, luego las usan para construir una buena prueba estadística para aplicar a la azar-caso (es decir, algo que rara vez sucede en datos aleatorios, pero sucede a menudo en los datos en humanos).
6) si desea que la clasificación de la ruta, y usted tiene una cantidad sustancial de datos en humanos, puede ayudar a hacer algunos ejemplos de la división de utilizar algunos de los datos para tratar de identificar algunas características necesarias que sería mejor distinguir las dos de la chi-cuadrado de enfoque.
7) es posible Que desee considerar la posibilidad de un enfoque Bayesiano.