Se me pidió hacer algunos análisis de regresión sobre datos anónimos, que no tengo todavía. Tendrá un par de categórico entradas y ~100 booleano salidas, algo como esto:
Category Type Size Blood pressure Y1 Y2 Y3 .... Y99
-------------------------------------------------------------------------------
cat persian small high 1 0 0 .... 1
cat persian big low 0 1 1 .... 0
dog wolfhound big normal 1 1 0 .... 0
... ... ... ... ......
duck scoter small above normal 0 1 1 .... 1
(Acabo de hacer el significado aquí). El número de muestras en el conjunto de datos reales será de aproximadamente un millón, sin valores perdidos. La tarea consiste en predecir el resultado, por ejemplo P(Y86 = 1 | {cat, siamese, big, low})
y en general a entender la relación entre entradas y salidas.
Mis preguntas:
- qué enfoques son la pena intentarlo, ¿cuáles son los pros y los contras?
- que
R
paquetes pueden ser de ayuda?