10 votos

Automático de limpieza de datos

Un problema común es la ML es de mala calidad de los datos: errores en los valores de la característica, instancias mal clasificadas, etc, etc.

Una manera de abordar este problema es pasar manualmente a través de los datos y de verificación, pero hay otras técnicas? (Apuesto a que hay!)

Cuáles son los mejores y por qué?

7voto

Matt David Puntos 238

La reducción de dimensionalidad a través de algo como PCA sería útil para obtener una idea de la cantidad de dimensiones que son fundamentales para representar los datos.

Para comprobar mal clasificado de los casos, usted puede hacer un rudimentario k-means clustering de los datos para tener una idea de lo bien que los datos se ajusten a sus categorías propuestas. Aunque no es automático, visualizando en esta etapa sería útil, ya que su cerebro visual es un potente clasificador en y de sí mismo.

En términos de los datos que son abiertamente que faltan, estadísticas tiene numerosas técnicas para lidiar con esa situación, que incluyen la imputación, la toma de datos desde el sistema existente o de otro juego para rellenar los huecos.

5voto

Loren Pechtel Puntos 2212

Realmente no se puede quitar a una persona conocedora del bucle y esperar resultados razonables. Eso no significa que la persona tiene que mirar cada elemento de forma individual, pero en última instancia, se necesita algún conocimiento real de saber si resúmenes, gráficos de datos son razonables. (Por ejemplo: ¿es variable de Un ser negativo, pueden variable B se de más de Una variable, o hay 4 o 5 opciones para la variable categórica C?)

Una vez que usted ha tenido un experto humano fijamos en los datos, probablemente pueda hacer una serie de reglas que usted podría utilizar para probar los datos de forma automática. El problema es, otros errores que pueden surgir de que usted no ha pensado. (Por ejemplo, un error de programación en el proceso de recolección de datos que duplica variable Una variable C.)

1voto

pdavis Puntos 2497

Si usted sabe que sus datos no es muy buena, siempre es bueno para la verificación de los valores extremos así. La mayoría de las veces no hay anomalías.

Si usted tiene un montón de características, la reducción de dimensionalidad es una necesidad. La PCA es bastante eficaz para que.

Si te falta alguno de los datos, puede utilizar la imputación o la interpolación, pero si sus necesidades no lo permite, la ganadora caso es utilizar el filtrado colaborativo.

0voto

Neal Puntos 316

Google Refine podría ser digno de una mirada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X