Soy un novato en el campo del ML e intento hacer una clasificación. Mi objetivo es predecir el resultado de un evento deportivo. He recopilado algunos datos históricos y ahora intento entrenar un clasificador. Tengo alrededor de 1200 muestras, 0.2 de ellas las he separado para probarlas, otras las he puesto a buscar en la cuadrícula (validación cruzada incluida) con diferentes clasificadores. He probado SVM con kernels lineales, rbf y polinominal y Random Forests hasta el momento. Por desgracia, no puedo obtener una precisión significativamente mayor que 0,5 (la misma que la elección aleatoria de la clase). ¿Significa que no puedo predecir el resultado de un evento tan complejo? ¿O puedo obtener al menos 0,7-0,8 de precisión? Si es factible, ¿qué debería hacer a continuación?
- ¿Obtener más datos? (Puedo ampliar el conjunto de datos hasta 5 veces)
- ¿Probar con distintos clasificadores? (regresión logística, kNN, etc.)
- ¿Reevaluar mi conjunto de funciones? ¿Existen herramientas de ML para analizar qué características tienen sentido y cuáles no? ¿Quizás debería reducir mi conjunto de características (actualmente tengo 12 características)?