Estoy analizando a la gente en base a su flujo de twitter. Estamos utilizando un modelo de "bolsa de palabras" de usuarios, que básicamente equivale a contar la frecuencia con que cada palabra aparece en el flujo de twitter de las personas (y luego utilizarlo como un proxy para una "probabilidad" más normalizada de que utilicen una palabra determinada en una longitud de texto particular).
Debido a las limitaciones que se presentan más adelante, no podemos retener datos completos sobre el uso de todas las palabras para todos los usuarios, por lo que estamos tratando de encontrar las palabras más "simbólicamente eficientes" para retenerlas en nuestro análisis. Es decir, estamos tratando de retener un subconjunto de dimensiones, que, conociendo sus valores, permitiría a un vidente hipotético modelar con mayor precisión las probabilidades de todas las palabras (incluyendo las que dejamos fuera del análisis).
Así que un enfoque del tipo de análisis de componentes principales (PCA) parece un primer paso apropiado. (ignorando felizmente por ahora el hecho de que el PCA también nos 'rotaría' a dimensiones que no corresponden a ninguna palabra en particular).
Pero estoy leyendo que "Las distribuciones Zipf caracterizan el uso de las palabras en un lenguaje natural (como el inglés)" y por lo que sé, el análisis de PCA hace varias suposiciones sobre los datos que se distribuyen normalmente. Por lo tanto, me pregunto si las suposiciones fundamentales del análisis PCA estarán lo suficientemente lejos de la realidad como para ser un problema real. Es decir, ¿confía PCA en que los datos estén "cerca" de la Normal de Gauss para que funcione bien?
Si esto es un problema como sospecho, ¿hay alguna otra recomendación? Es decir, ¿algún otro enfoque que valga la pena investigar y que sea "equivalente" a PCA de alguna manera pero más apropiado para el Zipf o la ley de energía distribuida de datos?
Tengan en cuenta que soy programador, no estadístico, así que disculpen si he estropeado mi terminología en lo anterior. (¡Correcciones, por supuesto, bienvenidas!)