¿Es válido el análisis de componentes principales si la(s) distribución(es) es(son) Zipf? ¿Qué sería similar a PCA pero adecuado para datos no gausianos?

Question

¿Es válido el análisis de componentes principales si la(s) distribución(es) es(son) Zipf? ¿Qué sería similar a PCA pero adecuado para datos no gausianos?

Preguntado el 10 de Enero, 2011: Cuando se hizo la pregunta
2092 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy analizando a la gente en base a su flujo de twitter. Estamos utilizando un modelo de "bolsa de palabras" de usuarios, que básicamente equivale a contar la frecuencia con que cada palabra aparece en el flujo de twitter de las personas (y luego utilizarlo como un proxy para una "probabilidad" más normalizada de que utilicen una palabra determinada en una longitud de texto particular).

Debido a las limitaciones que se presentan más adelante, no podemos retener datos completos sobre el uso de todas las palabras para todos los usuarios, por lo que estamos tratando de encontrar las palabras más "simbólicamente eficientes" para retenerlas en nuestro análisis. Es decir, estamos tratando de retener un subconjunto de dimensiones, que, conociendo sus valores, permitiría a un vidente hipotético modelar con mayor precisión las probabilidades de todas las palabras (incluyendo las que dejamos fuera del análisis).

Así que un enfoque del tipo de análisis de componentes principales (PCA) parece un primer paso apropiado. (ignorando felizmente por ahora el hecho de que el PCA también nos 'rotaría' a dimensiones que no corresponden a ninguna palabra en particular).

Pero estoy leyendo que "Las distribuciones Zipf caracterizan el uso de las palabras en un lenguaje natural (como el inglés)" y por lo que sé, el análisis de PCA hace varias suposiciones sobre los datos que se distribuyen normalmente. Por lo tanto, me pregunto si las suposiciones fundamentales del análisis PCA estarán lo suficientemente lejos de la realidad como para ser un problema real. Es decir, ¿confía PCA en que los datos estén "cerca" de la Normal de Gauss para que funcione bien?

Si esto es un problema como sospecho, ¿hay alguna otra recomendación? Es decir, ¿algún otro enfoque que valga la pena investigar y que sea "equivalente" a PCA de alguna manera pero más apropiado para el Zipf o la ley de energía distribuida de datos?

Tengan en cuenta que soy programador, no estadístico, así que disculpen si he estropeado mi terminología en lo anterior. (¡Correcciones, por supuesto, bienvenidas!)

Preguntado el 10 de Enero, 2011 por Jamie

Answer 1

1 Respuestas

Answer 2

5voto

MGOwen Puntos 122

Es probable que el PCA se pueda utilizar en sus datos, ya que parece que no hace ninguna suposición sobre la estructura de los datos. Vea el enlace para una buena introducción.

http://en.wikipedia.org/wiki/Principal_component_analysis#cite_note-4

La nota lleva a un breve tutorial en PDF sobre el ACP.

Espero que esto ayude.

Respondido el 10 de Enero, 2011 por MGOwen (122 Puntos )

¿Es válido el análisis de componentes principales si la(s) distribución(es) es(son) Zipf? ¿Qué sería similar a PCA pero adecuado para datos no gausianos?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Es válido el análisis de componentes principales si la(s) distribución(es) es(son) Zipf? ¿Qué sería similar a PCA pero adecuado para datos no gausianos?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: