10 votos

¿Cómo lidiar con los factores con niveles poco comunes en la validación cruzada?

Supongamos que en un análisis de regresión en R, tengo una variable independiente factor de tipo con 3 niveles en mi conjunto de datos de tren. Sin embargo, en los datos de prueba establecido que la misma variable factor tiene 5 niveles. Por lo tanto no puedo predecir los valores de respuesta para el conjunto de datos de prueba. Lo que se debe hacer en este caso?

8voto

cbeleites Puntos 12461

Como un primer pensamiento, esto significa que al menos el conjunto de entrenamiento no es representativo para los datos de la aplicación. Si el conjunto de pruebas es representativa es una pregunta que en mi humilde opinión debería pensar muy cuidadosamente acerca de. En este contexto, también es importante averiguar si estos faltan clases son un problema particular del conjunto de entrenamiento es demasiado pequeño, o si esto es una característica general del problema/tarea/aplicación. I. e., si las nuevas clases que nunca han encontrado antes de que irán apareciendo todo el tiempo.

En principio, veo dos posibilidades de lidiar con esta situación:

  • Decir que el conjunto de entrenamiento es para asegurarse de que no son representativas y solicite más datos, especialmente para los datos de los que faltan a clases. Esto tiene sentido en el caso de que se llega a la conclusión de que el problema se encuentra con un determinado conjunto de entrenamiento, no con las características generales de la aplicación.

  • En cualquier caso, sabiendo que los datos de entrenamiento, falta a clases, me gustaría considerar el uso de una clase classifer. I. e. un clasificador que trata a cada clase de forma independiente de cualquier otra clase. Idealmente, una clase clasificador debe devolver "desconocido clase" para los casos de prueba de las clases que no han estado disponibles para la formación. Para una clase de clasificadores, en las pruebas de este "rechazo" de los casos pertenecientes a auténticos desconocidos clases tiene realmente sentido.


editar wrt @gung comentario: supongo que el tren de prueba/split es fijo para algunas esperemos que la buena razón.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X