Asignación de etiquetas a los documentos

Question

Asignación de etiquetas a los documentos

Preguntado el 17 de Diciembre, 2013: Cuando se hizo la pregunta
340 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me encuentro ante un problema de clasificación de textos. Donde necesito asignar etiquetas a un documento. La cantidad de etiquetas que necesito asignar varía de 1 a 5. Estoy luchando un poco sobre cómo debo abordar este problema. Lo que intenté fue codificar cada combinación de etiquetas con LabelEncoder() de scikit-learn, lo enmarqué como un problema de regresión, porque esta codificación de etiquetas me dio demasiadas clases. Sin embargo, como no me cabe todo el conjunto de trenes en la memoria, sólo puedo entrenar con una pequeña parte del conjunto de trenes. La prueba es mucho más grande que la parte del conjunto de entrenamiento con la que entreno mi regresor. Como resultado, mi estimador tiene un rendimiento muy pobre en el conjunto de pruebas. En la validación cruzada, el regresor dio resultados razonables, lo que me indica que el problema de la regresión no es el principal. No estoy seguro de cómo debo proceder. ¿Debo enmarcar esto como un problema de clasificación? ¿Debo utilizar una codificación diferente de mis etiquetas? ¿O debería simplemente encontrar una manera de entrenar mi clasificador en más muestras?

Preguntado el 17 de Diciembre, 2013 por radai

Answer 1

1 Respuestas

Answer 2

1voto

alexs77 Puntos 36

Está claro que es mejor enmarcarlo como un gran problema de aprendizaje supervisado con una gran cantidad de supuestos prácticos. ¿Es posible generar un diccionario de etiquetas relevantes, como con una base de datos de manuscritos médicos y sus correspondientes términos MeSH? Calculando la frecuencia de dichos términos dentro de cada documento, uno puede ordenar esos resultados en una gran matriz. Una vez construida la matriz de frecuencias, se puede calcular su descomposición espectral e identificar los términos más destacados de cada documento por aquellos que tienen el mayor peso ortonormal en el primer componente principal. Si la matriz tiene un rango deficiente, los métodos de matriz dispersa serían una mejor opción, como es el caso de SparCl.

Respondido el 17 de Diciembre, 2013 por alexs77 (36 Puntos )

Asignación de etiquetas a los documentos

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Asignación de etiquetas a los documentos

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: