Tengo un Aprendizaje automático este semestre y el profesor nos pidió que encontráramos un problema del mundo real y resolverlo mediante uno de los métodos de aprendizaje de máquinas introducidos en la clase, como:
- Árboles de decisión
- Redes neuronales artificiales
- Máquinas vectoriales de apoyo
- Aprendizaje basado en instancias ( kNN , LWL )
- Redes Bayesianas
- Aprendizaje de refuerzo
Soy uno de los fans de stackoverflow y stackexchange y saber volcados de la base de datos de estos sitios web se proporcionan al público porque son increíbles! Espero poder encontrar un buen reto de aprendizaje de la máquina sobre estas bases de datos y resolverlo.
Mi idea
Una idea que se me ocurrió es predecir las etiquetas de las preguntas en base a las palabras introducidas en el cuerpo de la pregunta. Creo que la red bayesiana es la herramienta adecuada para aprender las etiquetas de una pregunta, pero necesito más investigación. De todos modos, después de la fase de aprendizaje, cuando el usuario termina de introducir la pregunta, se le deben sugerir algunas etiquetas.
Por favor, dígame :
Quiero preguntarle a la comunidad de estadísticas como gente experimentada sobre el ML dos preguntas:
-
¿Crees que la sugerencia de la etiqueta es al menos un problema que tiene alguna posibilidad de resolverse? ¿Tienes algún consejo al respecto? Estoy un poco preocupada porque Stackexchange no implementa esa característica todavía.
-
¿Tienes alguna otra/mejor idea para el proyecto ML que se basa en la base de datos de Stackexchange? Me resulta muy difícil encontrar algo que aprende de las bases de datos de Stackexchange.
Consideración sobre los errores de la base de datos: Me gustaría señalar que aunque las bases de datos son enormes y tienen muchas instancias, no son perfectas y se pueden corregir los errores. La obvia es la edad de los usuarios que no es fiable. Incluso las etiquetas seleccionadas para la pregunta no son 100% correctas. De todos modos, debemos considerar el porcentaje de corrección de los datos al seleccionar un problema.
Consideración sobre el problema en sí mismo: Mi proyecto no debería ser sobre data-mining
o algo así. Sólo debería ser una aplicación de los métodos de ML en el mundo real.