3 votos

Árboles con refuerzo de gradiente frente a redes neuronales para datos limitados

Tengo un problema de clasificación, con unas 10 entradas diferentes, algunas booleanas, otras categóricas (y no relacionadas entre sí), algunas siendo un flotador entre 0 y 1, que necesitan ser mapeadas a 4 salidas diferentes.

Mi problema es que la cantidad de datos que tengo es relativamente limitada. Tengo unos 10.000 puntos de datos.

¿Qué tendría más sentido aquí? ¿Árboles potenciados o una red neuronal? Me pregunto si tiene sentido utilizar una red neuronal, dado que el entrenamiento de una NN parece requerir muchos más datos.

Tenga en cuenta que no quiero usar SVM, k-means, etc, idealmente quiero hacer uno de estos dos métodos.

¿Qué parámetros sugeriría también? ¿Como el número de árboles/hojas? ¿Número de capas ocultas? Sé que gran parte se reduce a la experimentación, pero ¿cuáles son los valores iniciales buenos/probados para obtener buenos resultados?

4voto

aj100 Puntos 13

No se puede determinar qué algoritmo de aprendizaje automático e hiperparámetros son ideales hasta que se ajusten modelos basados en una combinación de algoritmos de aprendizaje automático e hiperparámetros. Para averiguar qué algoritmo es el óptimo, tendrás que probar unos cuantos más allá de los dos que has enumerado.

Para ello, utilice un enfoque de validación cruzada anidada para optimizar qué combinación de hiperparámetros utilizar para cada técnica de aprendizaje automático.

  1. Dividir los datos en conjuntos de entrenamiento y de prueba.
  2. Para cada algoritmo de aprendizaje automático, determine las posibles combinaciones de hiperparámetros examinando las especificaciones de cada algoritmo de aprendizaje automático. Para cada combinación de hiperparámetros, ajuste los modelos utilizando los datos de entrenamiento y la validación cruzada; y calcule la precisión media. Elija el modelo con la combinación de hiperparámetros con la mayor precisión media. Este será el modelo óptimo para este algoritmo de aprendizaje automático.
  3. Comparar la precisión de cada modelo óptimo entre los algoritmos de aprendizaje automático probándolos mediante conjuntos de pruebas.

Aquí hay algunas buenas referencias con algunos ejemplos:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X