8 votos

¿Cómo se puede extraer factores significativos de una matriz escasa?

Estoy interesado en encontrar algún tipo de práctica (y bastante bien aceptados) técnicas para la búsqueda de los factores subyacentes de una matriz dispersa.

En concreto, tengo una muy grande la matriz dispersa, cuyas células parecen estar poblada de aproximadamente distribución geométrica. En su forma natural la matriz es cuadrada. Los valores en las celdas representan elemento de x elemento de co-ocurrencias en caso de 1 por encima de la diagonal, y en caso de 2 por debajo de la diagonal. Si es necesario puedo subconjunto de la matriz a son particularmente interesantes artículos con el fin de hacer que sea rectangular. Yo creo que no son significativos los factores que subyacen a esta estructura. Sin embargo, mi interpretación es que debido a que la matriz es dispersa factor de análisis no es el enfoque adecuado. Cuál es la estrategia que puedo tomar que hará que sea más probable que puedo encontrar interpretar patrones en los datos?

Vi que había otra pregunta pedir referencias dispersas en las variantes de la PCA, pero creo que estoy buscando algo más parecido a un oblicuamente rotados factor de solución. Estoy dispuesto a profundizar en lecturas sugeridas algo, pero mi experiencia anterior con el análisis de los factores (y de las técnicas relacionadas) es limitada, y yo prefiero un relativamente sencilla respuesta (uno con código R es aún mejor).

4voto

Akira Puntos 1061

Podría sugerir la factorización de la matriz no negativa. El algoritmo iterativo de Lee y Seung es fácil de implementar y debe ser susceptible a las matrices escasas (aunque se trata de productos de Hadamard, que no admiten algunos paquetes de matriz sparse.).

2voto

jcnnghm Puntos 3030

Uno tiene que ser cuidadoso acerca de el significado de la palabra dispersas. Su matriz contiene muchos ceros, y uno puede representar a una matriz en una escasa camino (para ahorrar en almacenamiento). Pero desde que se representan las figuras de co-ocurrencias de estos ceros son aún considerado informativo (no faltan; no son estructuralmente cero) y, por consiguiente, deben tenerse en cuenta a la hora de modelar el contenido de la matriz. Los muchos ceros, y la asimetría (aproximadamente geométrica) sugieren que el uso generalizado de las formas de bilineal modelos (véase de Falguerolles/Gabriel : Lineal Generalizado-Bilineal Modelos). El R-paquete de gnm es compatible con este tipo de modelos. La escasa variantes de PCA/SVD se está refiriendo a que más bien se refieren a L1-regularizaciones de la representación factorial tal que la estimación de las cargas de salir a la luz escasa (muchos ceros).

0voto

Assaf Lavie Puntos 207

Yo tenía el mismo problema con un sparce de la matriz en la PNL y lo que hicimos fue seleccionar las columnas que donde más útil para clasify nuestras filas (que dio más información para discernir el resultado), si quieres te lo explique con más detalle, pero es realmente simple se puede averiguar. Pero el problema no parece ser una clasificación de uno, de hecho, me siento un poco confundido acerca de lo que dijo acerca de por encima de la diagonal y por debajo de ella. Pero yo estaba pensando que puede utilizar el Apriori algoritmo de minería de datos para descubrir las más importantes alianzas entre cualquier número de elementos.

0voto

Chris Karcher Puntos 1449

Le sugiero que mire el artículo de 2009 de Leng y Wang en JCGS: http://pubs.amstat.org/toc/jcgs/18/1 si esto es lo que quieres, los autores de la fuente código de R en los materiales complementarios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X