En principio:
Haga sus predicciones usando un solo modelo entrenado en todo el conjunto de datos (por lo que sólo hay un conjunto de características). La validación cruzada sólo se utiliza para estimar el rendimiento predictivo del único modelo entrenado en todo el conjunto de datos. Es VITAL en el uso de la validación cruzada que en cada pliegue se repita todo el procedimiento utilizado para ajustar el modelo primario, ya que de lo contrario se puede terminar con un sesgo optimista sustancial en el rendimiento.
Para ver por qué sucede esto, consideremos un problema de clasificación binaria con 1000 características binarias pero sólo 100 casos, donde los casos y las características son todos puramente aleatorios, por lo que no hay relación estadística entre las características y los casos en absoluto. Si entrenamos un modelo primario en el conjunto de datos completo, siempre podemos lograr un error cero en el conjunto de entrenamiento ya que hay más características que casos. Incluso podemos encontrar un subconjunto de características "informativas" (que resultan estar correlacionadas por casualidad). Si entonces realizamos una validación cruzada utilizando sólo esas características, obtendremos una estimación del rendimiento que es mejor que las suposiciones aleatorias. La razón es que en cada pliegue del procedimiento de validación cruzada hay alguna información sobre los casos retenidos utilizados para las pruebas, ya que las características se eligieron porque eran buenas para predecir, todas ellas, incluidas las retenidas. Por supuesto, la verdadera tasa de error será de 0,5.
Si adoptamos el procedimiento adecuado y realizamos la selección de rasgos en cada pliegue, ya no hay información sobre los casos retenidos en la elección de los rasgos utilizados en ese pliegue. Si se utiliza el procedimiento adecuado, en este caso, se obtendrá una tasa de error de alrededor de 0,5 (aunque variará un poco para las diferentes realizaciones del conjunto de datos).
Los buenos papeles para leer son:
Christophe Ambroise, Geoffrey J. McLachlan, "Selection bias in gene extraction on the basis of microarray gene-expression data", PNAS http://www.pnas.org/content/99/10/6562.abstract
que es muy relevante para el OP y
Gavin C. Cawley, Nicola L. C. Talbot, "On Over-fitting in Model Selection and Subsequent Selection Bias in Performance Evaluation", JMLR 11(Jul):2079-2107, 2010 http://jmlr.csail.mit.edu/papers/v11/cawley10a.html
lo que demuestra que lo mismo puede ocurrir fácilmente en la selección de modelos (por ejemplo, el ajuste de los hiperparámetros de un SVM, que también deben repetirse en cada iteración del procedimiento de CV).
En la práctica:
Yo recomendaría usar "Bagging", y usar el error de "fuera de la bolsa" para estimar el rendimiento. Obtendrá un modelo de comité usando muchas características, pero eso es realmente algo bueno. Si sólo utiliza un modelo único, es probable que se sobreponga al criterio de selección de características, y termine con un modelo que da predicciones más pobres que un modelo que utiliza un mayor número de características.
El libro de Alan Millers sobre la selección de subconjuntos en la regresión (monografías de Chapman y Hall sobre estadística y probabilidad aplicada, volumen 95) da el buen consejo (página 221) de que si el rendimiento predictivo es lo más importante, entonces no hagas ninguna selección de características, sólo usa la regresión de cresta en su lugar. Y eso está en un libro sobre la selección de subconjuntos!!! ;o)