26 votos

¿Hay una implementación de bosques al azar que funciona bien con muy escasos datos?

Hay una R al azar bosque aplicación que funciona muy bien con los datos dispersos? Tengo miles o millones de boolean las variables de entrada, pero sólo cientos o lo será CIERTO para cualquier ejemplo.

Soy relativamente nueva a R e notado que hay un 'Matrix' paquete para tratar con datos dispersos, pero el estándar de 'randomForest' paquete no parece reconocer este tipo de datos. Si es importante, los datos de entrada va a ser producido fuera de R e importados.

Algún consejo? También puede considerar el uso de Weka, Mahout u otros paquetes.

Gracias!

15voto

ESRogs Puntos 1381

No, no hay ninguna aplicación de RF para los escasos datos en R. parcialmente porque RF no encaja muy bien en este tipo de problema, embolsada y óptima selección de divisiones puede perder la mayor parte de la penetración del modelo en áreas sólo cero.

Probar algún método kernel o mejor pensar en convertir los datos en alguna representación más exuberante con algunos descriptores (o utilizar algún método de reducción de dimensionalidad).

-4voto

Vincent Puntos 5

Hay un blog llamado Quick-R, que deben ayudar con los conceptos básicos de R.

R funciona con paquetes. Cada paquete se puede hacer algo diferente. No es este paquetes llamados "randomForests" que debería ser justo lo que usted está pidiendo.

Ser conscientes de que los datos dispersos va a dar problemas, independientemente del método que se aplique. A mi entender es un problema abierto y la minería de datos en general, es más un arte que una ciencia. Bosques aleatorios hacer muy bien en general, pero no siempre son el mejor método. Puede que desee probar una red neuronal con un montón de capas, que podría ser de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X