5 votos

Análisis de las variables binarias

Tengo un conjunto de datos que consta de un cuarto de millón de objetos, cada uno de los cuales puede tener cualquiera, de 30 de características particulares. Así que voy a tener

Objeto 1: 3, función 7
Objeto 2: 3, característica 29, característica de los 30
Objeto 3: 3, función 7
Objeto 4: 1, característica de 18 años, cuentan con 20, característica de 28 de
...

En este momento sólo estoy haciendo análisis exploratorio. Estoy interesado en ver cómo las diferentes características que se relacionan: hace 29 de aparecer siempre con 30? Dispone de 7 a menudo se producen con la característica 3? Pueden característica de 10 predecirse a partir de las características 1, 2, y 3? Etc.

¿Qué tipos de análisis aquí son adecuadas? El problema es diferente de otros que han trabajado en el pasado, debido a que el espacio de estado es pequeña (cada objeto 'sostiene' meramente 30 bits de fácilmente compresible información), pero, paradójicamente, también de gran tamaño ($30 \choose 2$ es ya demasiado grande para fácilmente presentes, por lo que incluso pares interacciones son difíciles de estudiar, y $30 \choose 3$ es demasiado grande).

Mi primer pensamiento es algo que identifique que pares, triples, cuádruples, etc. tiene 'muy interesante' interacciones, aunque el examen de ellos individualmente no es factible. Pero tal vez hay cosas más interesantes que hacer?

Referencias básicas puede ser apropiado aquí (y se agradece si es relevante).

4voto

Zizzencs Puntos 1358

Pares pueden ser demasiado grandes para el presente, pero ciertamente no es demasiado grande para explorar. Usted podría hacer un 30x29 tabla y cada celda el número de casos en los que ambos están presentes. A continuación, puede ver. Usted podría incluso hacer esto por 3 camino mirando 27 de dichas tablas. A ver si encuentra algo interesante. Dependiendo de la frecuencia de los datos de emparejamiento, puede facilitar la visualización de una tabla mediante el uso de colores.

En algunos casos se puede decir "producen" y en algunos se puede decir "predecir". Si usted tiene hipótesis acerca de la predicción que podría utilizar la regresión logística.

Otro puramente exploratorio idea es ejecutar el 30 de regresiones logísticas, cada predicción de una variable de la otra 29. La idea aquí no tendría que ser necesariamente el uso de los modelos como modelos, pero para utilizarlos como herramientas. Acaba de encontrar a la gran coeficientes de regresión para la exploración.

Otra idea es crear una nueva variable igual a$\text{var30}*2^{30} + \text{var29}*2^{29} + \dots $, a continuación, buscar qué combinaciones se producen con más frecuencia.

Otra idea es hacer un análisis de cluster en los datos binarios.

(que debería dar algunas cosas para explorar!)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X