8 votos

Construcción de la característica en R

Me pregunto si hay alguna algoritmos (tal vez los algoritmos genéticos) en R para la construcción de la característica (derivados candidato predictores de los actuales predictores)? Estoy pensando en una rutina de prueba de alto orden de los poderes, las interacciones medicamentosas, las proporciones y las combinaciones lineales y funciones no lineales de las variables existentes (sin, cos, atan, etc).

Este podría ser un filtro o contenedor de rutina (es decir, no utilizando un algoritmo de aprendizaje o utilizar uno para definir la aptitud de la función).

Mi objetivo es el de "descubrir" potencialmente significativa de las proporciones y el como de la existente predictores.

Gracias!

3voto

sztanpet Puntos 179

Me parece que esto dejaría altamente vulnerables a problemas como la correlación espuria e incluso de sobreajuste. Se me olvida el nombre de el principio de que los estados más modelos de prueba, mayor será el riesgo de tropezar con uno malo, si tratas de tantos modelos como para ejecutar un algoritmo genético, se puede imaginar cómo ese principio es violado.

2voto

pkaeding Puntos 12935

Usted podría ir sobre ella, como este: a partir de los datos.marco, agrega un "razonable" conjunto de predictores transformados o incluso las interacciones de los datos (el modelo.de la matriz y similares deben ser capaces de sacar esto adelante).

Una vez que estás allí, cualquier variable método de selección que se podía hacer. glmnet viene a la mente, pero hay muchas opciones. Una desventaja de esta forma de trabajo es que va a ser duro para asegurarse de que el principal efecto es en el modelo cuando la interacción es. Quizás algunas formas de selección de variables de apoyo de este, pero no sé de ninguna obvias además paso a paso los procedimientos (que contravendría el propósito).

1voto

Boris Tsirelson Puntos 191

Usted podría empezar con algo simple como encontrar el principio de componentes o componentes independientes. También se puede conseguir un poco loco y generar todos la 2-forma en que las interacciones de las variables. Obviamente, como se generan y la prueba más características, se necesita un algoritmo de selección de características que es más robusto frente a sobreajuste.

Algunos algoritmos de modelado, como MARTE, bosques aleatorios, y no-lineal de las SVMs encontrar automáticamente ciertas interacciones entre sus características originales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X