5 votos

Regresión multivariante para las variables de salida binario 100

Se me pidió hacer algunos análisis de regresión sobre datos anónimos, que no tengo todavía. Tendrá un par de categórico entradas y ~100 booleano salidas, algo como esto:

Category   Type         Size       Blood pressure     Y1   Y2    Y3  ....   Y99  
-------------------------------------------------------------------------------
cat        persian      small      high               1    0     0   ....   1
cat        persian      big        low                0    1     1   ....   0
dog        wolfhound    big        normal             1    1     0   ....   0
...        ...          ...        ...                      ......   
duck       scoter       small      above normal       0    1     1   ....   1  

(Acabo de hacer el significado aquí). El número de muestras en el conjunto de datos reales será de aproximadamente un millón, sin valores perdidos. La tarea consiste en predecir el resultado, por ejemplo P(Y86 = 1 | {cat, siamese, big, low}) y en general a entender la relación entre entradas y salidas.

Mis preguntas:

  1. qué enfoques son la pena intentarlo, ¿cuáles son los pros y los contras?
  2. que R paquetes pueden ser de ayuda?

1voto

vignesh Puntos 6

Personalmente, me gustaría ir así:

  1. Prueba para la correlación entre la entrada de las variables (por ejemplo, Category claramente se ve siempre identificable por Type y por lo tanto se puede quitar), y entre la salida (a través de la cor??) y dejar sólo la no-correlación en cada grupo.
  2. Ejecutar multivariante de regresión a través de la glm(cbind(Y1:Y99)~category+type+size+blood, family=binomial)
  3. Para cada uno de Y1..Y99 predicciones, prueba de nivel de significación.. Bueno, aquí estoy un poco preocupado, porque parece que con 1 MILLÓN de registros de cualquier pequeño cambio sería significativa (porque el significado es proporcional a SampleSize/Variability y el ex claramente domina).

Aunque estoy un poco preocupado por el tamaño de los datos (que, para mí, parece representar todas las pruebas estadísticas inútil debido a que el tamaño de la muestra), y también estoy preocupado si es legítima para ejecutar esos 100 regresiones sin de alguna manera, asegurando que son independientes o no estamos haciendo algún tipo de comparación múltiple.

También me pregunto si no estoy perdiendo de nada importante - en el planteamiento del problema o en las herramientas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X