En realidad nunca he encontrado ninguna buena texto o ejemplos sobre cómo manejar la 'inexistente' datos de entradas para cualquier tipo de clasificador. He leído mucho sobre los datos que faltan, pero ¿qué se puede hacer acerca de los datos que no pueden o no existir en relación con multivariante de las entradas. Entiendo que esta es una pregunta bastante compleja y varía dependiendo de los métodos de entrenamiento utilizados...
Por ejemplo, si se intenta predecir laptime para varios corredores con buena exactitud de los datos. Entre las muchas entradas, variables posibles, entre muchos, son:
- Variable de entrada - Primera vez runner (S/N)
- De entrada Variable Anterior laptime ( 0 - 500 segundos)
- Variable De Entrada - Edad
- De Entrada De Altura Variable . . . muchas más variables de Entrada, etc
Y salida de Predictor - Predijo Laptime (0 - 500 segundos)
Una 'variable' por '2.Anterior laptime' puede calcularse de varias maneras, pero '1. Primera vez runner' siempre igual a N . Pero para la 'INEXISTENTE' DATOS para una primera vez corredor (donde '1. Primera vez runner' = Y) ¿qué valor/tratamiento debo darle para '2. Anterior laptime'?
Por ejemplo asignando '2. Anterior laptime' como -99 o 0 puede sesgar la distribución dramáticamente y hacer que se vea como un nuevo corredor, se ha realizado bien.
Mi formación actual de métodos han sido el uso de la regresión Logística, SVM, NN y árboles de Decisión