Gracias de antemano por la ayuda.
He moderadamente amplio conjunto de datos (alrededor de 7000 muestras) con numerosos los predictores categóricos y una sola respuesta binaria. Todos los predictores son categóricos. A través de ensayo y error he encontrado que el uso de un bosque aleatorio modelo produce la mejor exactitud de predicción de la respuesta.
Con el fin de aumentar la exactitud de mi modelo decidí incluir pares de términos de interacción. Sin embargo, ello condujo a una disminución en la precisión. Inicialmente se supone que esto sea porque la inclusión de los términos de interacción agrega un número significativo de predictores a mi conjunto de entrenamiento. En concreto, antes de la adición de los términos de interacción tengo 12 predictores y después de la adición de alrededor de 60. Con un maniquí de codificación tengo aproximadamente 60 predictores y un par de cientos, de manera respetuosa.
Con esto en mente, me realiza la selección de características y recogió los 5,10,15,etc mejores predictores para entrenar a mi modelo. Esto tuvo poco efecto sobre la exactitud de mi modelo, a saber, que no era tan bueno como el modelo sin términos de interacción. Aviso que yo optimizado para los árboles en el bosque y el número de características que se usan en la selección al azar.
En este punto, uno podría concluir que los términos de interacción no añadir nada a mi modelo. Sin embargo, tengo una buena evidencia de que deben ser muy fuertes predictores de la respuesta. Lo ideal sería poder tener interacciones más complicado que sólo los pares, pero no tengo suficientes muestras de ello.
Me pregunto ahora si este comportamiento es resultado del método que estoy utilizando, es decir, yo estoy usando un bosque de árboles. Supongamos por el momento que estoy usando sólo un árbol. Es posible que el uso de datos categóricos para entrenar a un tipo de árbol modelo intrínsecamente codifica interacciones? Si es así, esto podría explicar por qué, incluyendo los términos de interacción conduce a una disminución en la capacidad de predicción de rendimiento de mi modelo.
Realizar función de los resultados de la selección en la selección, casi exclusivamente, de la interacción de los predictores. Cuando produzco un bosque aleatorio usando estos predictores entonces estoy limitando mi "camino". Voy a motivar a esto con un ejemplo. Supongamos que tengo predictores ,,, y mediante la selección de características me instalo en la interacción predictores . Yo ya no puede producir un árbol que las ramas en el y, a continuación, en . Puedo, sin embargo, producir un árbol con el original de predictores sin interacciones.
Aquí está mi hipótesis. La producción de un bosque aleatorio con solo el original predictores me permite "codificar" interacciones a través del comportamiento de ramificación de los árboles. Utilizando sólo los resultados de la selección de la función de rendimiento no es tan bueno ya que las características seleccionadas son predominantemente de interacciones. Esto limita el comportamiento de ramificación de los árboles generados. Por último, incluyendo todo lo que no se desempeñan tan bien ya que esto se traduce en muy muchos predictores. No tengo suficientes muestras para el modelo para entrenar correctamente. También debo señalar que me miraba con el original predictores y un puñado de los mejores interacciones, según lo determinado por la selección de características. Esto también no se desempeñan tan bien como el uso de sólo el original de predictores.
Aquí está mi pregunta. Estoy mirando esto de la manera correcta? Más específicamente, ¿ la generación de un árbol usando solo los predictores categóricos inherentemente codificar las interacciones entre los predictores? También cualquier idea o consejo sobre cómo como alternativa frente a este problema (la predicción de la respuesta binaria) sería muy apreciada.
Gracias.