Tengo unos datos de entrenamiento para entrenar un modelo de clasificación. Sin embargo, sé que estos datos contienen columnas (características) que no estarán disponibles en el momento de la prueba cuando quiera utilizar el modelo entrenado para predecir. No veo ningún valor añadido en el uso de estas características en el momento del entrenamiento. Tenga en cuenta que esto es diferente de una situación en la que algunas características pueden o no estar disponibles en el momento de la prueba, en cuyo caso puedo ver algún valor de la utilización de esas características para la formación de un modelo y luego hacer algún tipo de imputación si faltaban en el momento de la prueba. No soy investigador, así que me gustaría conocer las opiniones o sugerencias de otras personas al respecto.
Respuesta
¿Demasiados anuncios?No, no tiene ningún valor hacerlo. Si entrenas una regresión logística (por ejemplo), a cada característica se le asociará un peso. Si en el momento de la prueba, usted no tiene una característica más, ¿qué vas a hacer? ¿Pondrás una característica "falsa" igual a cero? Pero el problema es que usted enseñó a su modelo a predecir con esta característica: esta característica tiene un "significado" para el modelo. Por tanto, el rendimiento será menor.