Estoy tratando de hacer predicciones utilizando una muestra aleatoria de bosque modelo en R.
Sin embargo obtengo errores, ya que algunos factores tienen valores diferentes en el conjunto de pruebas que en el conjunto de entrenamiento. Por ejemplo, un factor Cat_2
valores 34, 68, 76
, etc., en el conjunto de pruebas que no aparecen en el conjunto de entrenamiento. Por desgracia, no tengo control sobre el conjunto de Prueba... debo utilizar como está.
Mi única solución era convertir a la problemática de los factores de vuelta a valores numéricos, utilizando as.numeric()
. Esto funciona , pero no estoy muy satisfecho, ya que estos valores son códigos que no tienen sentido numérico...
¿Crees que habría otra solución, a la caída de los nuevos valores de la prueba de conjunto? Pero sin quitar todos los otros valores del factor de (digamos que los valores de 1, 2, 14, 32
, etc.) que están tanto en el entrenamiento y de prueba, y contiene información potencialmente útil para las predicciones.