1 votos

Identificar el subconjunto de variables con mayor poder predictivo de las demás variables

Tengo 31 variables numéricas (por ejemplo, A-AF) para las que intento identificar el subconjunto más pequeño de esas variables que prediga los valores del resto de las variables con un IC del 90% o superior.

Por ejemplo, me gustaría acabar con un modelo en el que los valores de las variables A, B, C, D y E, conjuntamente, predijeran los valores de F-AF, donde las variables A-E son el número mínimo de variables necesarias para predecir todas las demás variables de los datos.

¿Cómo podría abordar este problema?

Tengo la idea de crear 31 modelos diferentes para predecir las 31 variables con un IC del 90%, y luego utilizar algún tipo de algoritmo de "variable común" para identificar qué variables son comunes a todos los modelos... Pero no sé cómo implementarlo.

Estoy usando RapidMiner 6, pero podría aprender a usar R o cualquier otra herramienta para realizar esta tarea.

2voto

bentsai Puntos 1886

Por desgracia, no hay ninguna respuesta buena a tu pregunta que tenga garantías formales. Lo que preguntas es un caso especial de un problema general de búsqueda en redes. La observación clave aquí es que si un subconjunto de variables no es bueno para predecir el resto, entonces un subconjunto de éstas no podrá ser mejor. Por tanto, una estrategia tan buena como cualquier otra es la que sugieres: empezar con todas las variables menos una y predecir la restante. A continuación, tome la que tenga el mejor IC y explore hacia fuera eliminando una variable cada vez, y así sucesivamente. Este método aparece de muchas formas diferentes cuando se buscan subconjuntos de un conjunto de características.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X