13 votos

Técnicas para el Manejo Incompleto/Falta de Datos

Mi pregunta va dirigida a las técnicas para lidiar con incompleta de los datos durante el clasificador/modelo de formación/adaptación.

Por ejemplo, en un conjunto de datos w/ un par de cientos de filas, cada fila de tener digamos cinco dimensiones y una clase de etiqueta como el último elemento, la mayoría de los puntos de datos tendrá este aspecto:

[0.74, 0.39, 0.14, 0.33, 0.34, 0]

Algunos podría ser algo como esto:

[0.21, 0.68, ?, 0.82, 0.58, 1]

Así que los tipos de puntos de datos que son el foco de esta Pregunta.

Mi primera razón para esta pregunta fue un problema directamente en frente de mí; sin embargo, antes de publicar mi Pregunta, pensé que podría ser más útil si me re-enunciado de las respuestas podría ser útil para una porción más grande de la Comunidad.

Como un simple heurística, vamos a dividir estos datos-manejo de técnicas basadas en cuando durante el flujo de proceso se emplean--antes de la entrada al clasificador o durante (es decir, la técnica es en el interior del clasificador).

El mejor ejemplo que se me ocurre para que el último es el inteligente "de tres vías de ramificación' técnica utilizada en los Árboles de Decisión.

Sin duda, la primera categoría es mucho más grande. Las técnicas que soy consciente de todos caen en uno de los grupos más abajo.

Mientras que recientemente revisando mis notas personales sobre la "falta de manejo de datos" me di cuenta de que tenía toda una lista impresionante de técnicas. Acabo de mantener estas notas generales para la paz de la mente y en el caso de que un junior colega me pregunta cómo lidiar con la falta de datos. En la práctica real, yo en realidad no utilizar ninguno de ellos, excepto el último.

  1. Imputación: una amplia rúbrica para un conjunto de técnicas cuyo común denominador (creo) es que el faltan datos son suministrados directamente por el mismo conjunto de datos--sustitución en lugar de estimación/predicción.

  2. Reconstrucción: estimación de la falta de puntos de datos utilizando un auto-asociativa de la red (sólo un la red neuronal en la que los tamaños de la entrada y la salida de capas igual, en otras palabras, la salida tiene la misma dimensión que la de entrada); la idea aquí es entrenar esta red de datos completa, entonces alimentación incompleta de los patrones, y lea la falta de valores de la los nodos de salida.

  3. Bootstrapping: (no resumen es necesario que no debería pensar, dado su uso en otros lugares en estadística el análisis).

  4. Negación: en silencio quitar los puntos de datos con falta o dañar los elementos de su conjunto de entrenamiento y pretender nunca hubieran existido.

3voto

Kristof Provost Puntos 293

Me dio esta respuesta a otra pregunta, pero es posible que también se aplican aquí.

"Hay una razonable nueva área de investigación, denominado Matriz de Finalización, que probablemente no lo que desea. Una muy buena introducción se da en esta conferencia por Emmanuel Candes"

Esencialmente, si el conjunto de datos tiene rango bajo (o aproximadamente de bajo rango), es decir, usted tiene 100 filas, pero la real de la matriz tiene algunas pequeñas rango, digamos 10 (o sólo el 10 grandes valores singulares), entonces usted puede utilizar la Matriz de Finalización para rellenar los datos que faltan.

2voto

PabloG Puntos 9308

Yo podría ser un poco ortodoxo aquí, pero qué diablos. Por favor nota: esta línea de pensamiento, viene de mi propia filosofía para la clasificación, que es la que yo uso cuando mi propósito es de lleno en la pura predicción -- no la explicación, la coherencia conceptual, etc. Por lo tanto, lo que yo estoy diciendo aquí contradice cómo me había enfoque de la construcción de un modelo de regresión.

Clasificación diferente de los enfoques varían en su capacidad para manejar los datos que faltan, y dependiendo de otros factores^, yo podría tratar #5: el uso de un clasificador que no se ahogue en los NAs. Parte de la decisión de ir por ese camino podría incluir también el pensamiento acerca de la probabilidad de que una proporción similar de NAs están a ocurrir en el futuro los datos a los que se va a aplicar el modelo. Si NAs ciertas variables van a ser parte del curso, entonces tendría sentido que acaba de rodar con ellos (es decir, no de construir un modelo predictivo que asume más información de lo que en realidad va a tener, o estarás engañando a ti mismo acerca de cómo predictivo es que realmente va a ser). De hecho, si no estoy convencido de que NAs faltan al azar, yo estaría inclinado a recodificar una variable (o un nuevo nivel si es que faltan en una variable categórica) para ver si la missingness sí es predictivo.

Si yo tuviera una buena razón para utilizar un clasificador que no faltan datos muy bien, entonces mi enfoque sería #1 (múltiples de la imputación), tratando de encontrar un modelo de clasificación que se comportaron de manera similar también a través de conjuntos de datos imputados.

^En particular: ¿cuánto missingness que tiene en su predictores, si existen patrones sistemáticos (si lo hay, sería la pena echar un vistazo más de cerca y pensamiento a través de las implicaciones para su análisis), y la cantidad de datos que tienen que trabajar con la general.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X