7 votos

Clasificación binaria cuando muchos binario características faltan

Estoy trabajando en un problema de clasificación binaria, con cerca de 1000 binario funciones en total. El problema es que para cada punto de datos, solo sé que los valores de un pequeño subconjunto de las características (alrededor de 10 a 50), y las características de este subgrupo son bastante aleatorios.

Lo que es una buena manera de lidiar con el problema de las funcionalidades que faltan? ¿Existe un algoritmo de clasificación que se encarga de las características que faltan? (Naive Bayes debería funcionar, pero ¿hay algo más?) Supongo que no quiero hacer algún tipo de variable de imputación, ya que tengo tantas características que faltan.

3voto

DavLink Puntos 101

Suponiendo que los datos son consideradas desaparecidas completamente al azar (cf. @whuber del comentario), utilizando un conjunto de técnicas de aprendizaje, como se describe en el siguiente artículo puede ser interesante para tratar:

Polikar, R. et al. (2010). Aprender++.MF: UNA al azar subespacio el enfoque de la función de ausencia problema. El Reconocimiento De Patrones, 43(11), 3817-3832.

La idea general es la formación de múltiples clasificadores en un subconjunto de las variables que componen el conjunto de datos (como en Bosques Aleatorios), pero utilizar sólo los clasificadores entrenados con el que no faltan las características para la construcción de la regla de clasificación. Asegúrese de comprobar lo que los autores llaman la "distribución de la redundancia de" asunción (p. 3 en el preprint enlazado más arriba), que se debe haber algún igualmente equilibrado de redundancia en sus funciones establecidas.

1voto

Steve Scheffler Puntos 1166

Si las características en el subconjunto son al azar, usted todavía puede imputar valores. Sin embargo, si tiene tanta falta de datos, me gustaría pensar dos veces acerca de si o no usted realmente tiene suficientes datos válidos para cualquier tipo de análisis.

Las múltiples imputación página de preguntas frecuentes \begin{align*} X = c_0 \oplus \ell_\infty \oplus \ell_\infty \oplus \ell_\infty \oplus \ldots && X_0 = \{0\} \oplus c_0 \oplus \ell_\infty \oplus \ell_\infty \oplus \ell_\infty \oplus \ldots \end>

http://www.stat.psu.edu/~jls/mifaq.html

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X