Tengo 31 variables numéricas (por ejemplo, A-AF) para las que intento identificar el subconjunto más pequeño de esas variables que prediga los valores del resto de las variables con un IC del 90% o superior.
Por ejemplo, me gustaría acabar con un modelo en el que los valores de las variables A, B, C, D y E, conjuntamente, predijeran los valores de F-AF, donde las variables A-E son el número mínimo de variables necesarias para predecir todas las demás variables de los datos.
¿Cómo podría abordar este problema?
Tengo la idea de crear 31 modelos diferentes para predecir las 31 variables con un IC del 90%, y luego utilizar algún tipo de algoritmo de "variable común" para identificar qué variables son comunes a todos los modelos... Pero no sé cómo implementarlo.
Estoy usando RapidMiner 6, pero podría aprender a usar R o cualquier otra herramienta para realizar esta tarea.