1 votos

Construcción/extracción automática de características

Tengo un gran conjunto de datos con sello de tiempo (varios millones de filas), con entradas medidas conocidas xi, donde i es un número grande del orden de magnitud de 20. El objetivo es predecir una respuesta yi a partir de las entradas.

Ahora la pregunta se refiere a la construcción y prueba de las características o formas funcionales que mejor codifican la relación entre y y x. ¿Existen técnicas/algoritmos que lo hagan automáticamente por ti, es decir, que prueben varias formas de características combinando diferentes x en varias formas funcionales, donde el algoritmo sea lo suficientemente inteligente como para sugerirte qué formas funcionales tienen más sentido para empujarte en la dirección correcta?

Sé que construir buenas características es un arte, supongo que lo que estoy preguntando es si hay técnicas de fuerza bruta para ayudarme en ese proceso.

Gracias, por favor, hágame saber si no fui claro.

-1voto

Owen Fraser-Green Puntos 642

En mi opinión, la respuesta a su pregunta se denomina alternativamente Regresión dinámica/Función de transferencia/Lag distribuido polinómico/Lag distribuido autoregresivo/XARMAX. La idea es formar un modelo mínimamente suficiente de la forma (mostrada aquí con sólo 1 X donde usted tiene 20) usando tan pocos rezagos como sea necesario. Tenga en cuenta que a veces B (el operador de desplazamiento hacia atrás) se sustituye por L , especialmente en la "ciencia lúgubre" de la econometría.

Yt=+(01B1.....sBs)/(11B1...rBr)Xtb+et

que fácilmente se replantea a :

un modelo XARMAX con diferente notación de subíndices

Y[t] = a[1]Y[t-1] + ... + a[p]Y[t-p]
+ w[0]X[t-0] + ... + w[r]X[t-r]
+ b[1]a[t-1] + ... + b[q]a[t-q]
+ constante

El problema estadístico consiste en determinar cuál es la estructura de desfase adecuada para cada Y y X.

El problema estadístico es crear una solución robusta que incorpore cualquier pulso/desplazamiento de nivel/pulso estacional/tendencia temporal local que exista en los datos y que no sea tratado por ninguna de las X especificadas por el usuario.

El problema estadístico consiste en validar que los parámetros del modelo final son invariantes a lo largo del tiempo y que la varianza del error está libre de cualquier no-constancia . La no-constancia en el proceso de error puede surgir tanto de forma estocástica como no-estocástica.

En cuanto a las soluciones disponibles en el mercado, puedo recomendar AUTOBOX como un potencial http://www.autobox.com/cms/ ya que he ayudado a desarrollarla. Además, otros actores de este entorno son SPSS y SAS, por nombrar algunos.

A la hora de seleccionar un enfoque, hay que tener cuidado de que los datos no se utilicen sin más, SINO que se cuestione que formen parte del proceso y no reflejen una actividad inusual, por lo que hay que establecer procedimientos de limpieza de datos que sean eficaces.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X