14 votos

Tratar con conjuntos de datos con un número variable de características

¿Cuáles son algunos enfoques para clasificar los datos con un número variable de características?

Como ejemplo, considere un problema donde cada punto es un vector de x y y puntos y no tienen el mismo número de puntos para cada instancia. ¿Podemos tratar cada par de x y y como una función? ¿O debemos simplemente resumimos los puntos de alguna manera así cada punto de datos tiene un número fijo de características?

5voto

Evan Carroll Puntos 800

Usted puede tratar estos puntos como desaparecidas --- es decir. supongamos que el vector tiene más de 20 (x, y) pares y particular punto 5 (x, y) pares, en este caso tratar el resto de los pares que faltan y, a continuación, aplicar standatd procedimientos para los parámetros que faltan:

Estos procedimientos pueden ser:

  • El uso de un modelo que controla los parámetros que faltan en forma natural, por ejemplo modelos de árboles de decisión debe ser capaz de lidiar con eso.
  • Reemplazar con el valor de la media para la columna apropiada.
  • El uso de algunos fáciles de modelo para 'predecir' los valores que faltan.

Pero como @jonsca puntos - - - - - si la presencia de la ausencia de determinado punto de ayuda en classyfying los datos que usted debe, por ejemplo, construir un par de modelos, cada uno de ellos de los modelos de casos con un número determinado de puntos.

3voto

Tyson Williams Puntos 106

De cómo entiendo tu pregunta, los puntos en que los datos son intercambiables y no vienen con cualquier orden, es decir, usted tiene una serie de puntos para cada ejemplo. Esta configuración es diferente de la "Falta de Valor" que jb. se describe.

Yo sé acerca de los dos métodos comúnmente utilizados para este problema, que se basan en sus ideas. Una buena línea de base que probablemente sería simplemente el promedio de todos los puntos dentro de un ejemplo, pero que por lo general no funciona bien.

  • Para agregar múltiples puntos a una sola característica, bolsa de palabras (o la bolsa de función) representaciones son muy utilizados, por ejemplo en la visión por ordenador. La idea es de clúster de todos los puntos en el conjunto de entrenamiento (usando, por ejemplo k-means) y, a continuación, se describe cada punto de su grupo. Para cada ejemplo usted, a continuación, obtener un histograma más que los clusters se producen con qué frecuencia.

  • Para el uso de todos los pares de puntos, usted puede hacer uso de kernels. Esto podría funcionar mejor con el uso de SVMs, pero probablemente también trabajar con cualquier algoritmo de aprendizaje que puede ser kernelized o hacer uso de una de compatibilidad de la función entre las entradas. Conjunto de núcleos son básicamente una manera de calcular la similitud de dos conjuntos de características, como en su configuración.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X