2 votos

¿Cómo elegir el método de normalización para una matriz de co-ocurrencia?

Tengo una matriz de co-ocurrencia sobre el uso de hashtags (El valor en la celda significa la cantidad de veces que dos hashtags aparecen juntos en un solo tweet), que está transformada de una matriz de 2 modos. Ahora quiero usar Ucinet para normalizar esta matriz porque tengo 4 matrices como esta en diferentes períodos. De hecho, quiero comparar el uso de hashtags en diferentes momentos, por lo que debo normalizar las 4 matrices para disminuir los efectos dimensionales.

Pero encuentro que ucinet ofrece diferentes métodos para eso: z-scores, marginal, Euclidiana y así sucesivamente. ¿Cuál es el mejor? No sé cómo elegir y también encuentro que hay alguna diferencia entre los resultados de los diferentes métodos. ¡Gracias por tu ayuda!

3voto

Rosstified Puntos 2327

Dado que la tabla de co-ocurrencia es una matriz cuadrática y simétrica alrededor de la diagonal principal, no importa si se lee por filas o por columnas. La diagonal principal parece ser cero en todos lados, lo cual tiene sentido ya que es poco probable que se repita el mismo hashtag dentro del mismo tweet.

Mi sugerencia es normalizar por filas (o por columnas), es decir, dividir cada fila por su total. De esta manera, la fila $i$ de la tabla representaría la distribución de frecuencia relativa de las co-ocurrencias para el hashtag $i$. Ahora puedes comparar esta distribución de frecuencias con otras distribuciones de frecuencias de otras tablas o para otros tags.

En mi opinión, no tiene sentido calcular cuantiles o resúmenes basados en momentos en estas distribuciones (por lo que el z-score tampoco es significativo) ya que la variable en cuestión es cualitativa, es decir, tiene modalidades "#1 vs #1", ..., "#1 vs #n".

En su lugar, puedes usar la moda (es decir, la co-ocurrencia con mayor frecuencia relativa) como medida de ubicación. Como medida de "variabilidad" o entropía, puedes usar la entropía de Shannon.

Si denotamos por $p_{j|i}$ la frecuencia relativa de la co-ocurrencia "#i vs #j", para $j = 1,\ldots,k$, la entropía de Shannon es

$$ H = \sum_{j=1}^k p_{i|j}\log p_{j|i}, $$

con $p_{j|i}\log p_{j|i} = 0$ si $p_{j|i}=0$. $H$ asume el valor cero, es decir, su mínimo, cuando la distribución es uniforme. Además, se puede demostrar que $H\leq \log k$, por lo tanto, si usas $H$ para comparar distribuciones de frecuencias con diferentes $k$'s, es mejor usar su versión normalizada $$ H_n = \frac{H}{\log(k)}. $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X