Mi pregunta va dirigida a las técnicas para lidiar con incompleta de los datos durante el clasificador/modelo de formación/adaptación.
Por ejemplo, en un conjunto de datos w/ un par de cientos de filas, cada fila de tener digamos cinco dimensiones y una clase de etiqueta como el último elemento, la mayoría de los puntos de datos tendrá este aspecto:
[0.74, 0.39, 0.14, 0.33, 0.34, 0]
Algunos podría ser algo como esto:
[0.21, 0.68, ?, 0.82, 0.58, 1]
Así que los tipos de puntos de datos que son el foco de esta Pregunta.
Mi primera razón para esta pregunta fue un problema directamente en frente de mí; sin embargo, antes de publicar mi Pregunta, pensé que podría ser más útil si me re-enunciado de las respuestas podría ser útil para una porción más grande de la Comunidad.
Como un simple heurística, vamos a dividir estos datos-manejo de técnicas basadas en cuando durante el flujo de proceso se emplean--antes de la entrada al clasificador o durante (es decir, la técnica es en el interior del clasificador).
El mejor ejemplo que se me ocurre para que el último es el inteligente "de tres vías de ramificación' técnica utilizada en los Árboles de Decisión.
Sin duda, la primera categoría es mucho más grande. Las técnicas que soy consciente de todos caen en uno de los grupos más abajo.
Mientras que recientemente revisando mis notas personales sobre la "falta de manejo de datos" me di cuenta de que tenía toda una lista impresionante de técnicas. Acabo de mantener estas notas generales para la paz de la mente y en el caso de que un junior colega me pregunta cómo lidiar con la falta de datos. En la práctica real, yo en realidad no utilizar ninguno de ellos, excepto el último.
Imputación: una amplia rúbrica para un conjunto de técnicas cuyo común denominador (creo) es que el faltan datos son suministrados directamente por el mismo conjunto de datos--sustitución en lugar de estimación/predicción.
Reconstrucción: estimación de la falta de puntos de datos utilizando un auto-asociativa de la red (sólo un la red neuronal en la que los tamaños de la entrada y la salida de capas igual, en otras palabras, la salida tiene la misma dimensión que la de entrada); la idea aquí es entrenar esta red de datos completa, entonces alimentación incompleta de los patrones, y lea la falta de valores de la los nodos de salida.
Bootstrapping: (no resumen es necesario que no debería pensar, dado su uso en otros lugares en estadística el análisis).
Negación: en silencio quitar los puntos de datos con falta o dañar los elementos de su conjunto de entrenamiento y pretender nunca hubieran existido.