Tengo una gran colección de tuits geoetiquetados, cada uno de los cuales enlaza con un artículo de un autor determinado. Para cada autor, me gustaría obtener un número que describa la diversidad de su lista de países que tuitean.
Por supuesto, podría contar simplemente el número de países representados, pero me gustaría normalizar por el número de tuits que enlazan a cada autor. Así, por ejemplo, un autor que atraiga 1000 tuits totales de 50 países debería tener una clasificación más baja en cuanto a diversidad geográfica que otro que haya tuiteado en 50 países, pero sólo de 100 tuits.
Una forma ingenua sería utilizar tweets por país, pero esto parece menos útil dado que hay un número limitado de países entre los que elegir: es menos probable que aparezca el país número 150 de uno que el número 15, y la simple proporción no lo refleja.
Tengo algunas ideas vagas sobre el uso de una distribución binomial, pero me encantaría tener una perspectiva más experimentada.
3 votos
Véanse varias respuestas ya en el sitio que tratan de los índices de diversidad, desigualdad o concentración, entre ellas éste