2 votos

Aprendizaje basado en memoria: Predicción del género de los sustantivos franceses

Estoy tratando de predecir el género de sustantivos en francés basándome en sus sufijos. Tengo un corpus de 10k sustantivos. Para cada sustantivo, separo la raíz del sufijo. Creo cinco instancias pero con longitudes de sufijos variables: 1, 2, 3, 4 y 5.

El nombre de clase que asigno a cada instancia está compuesto por el género y la longitud del sufijo, por ejemplo, "f2" para un sustantivo femenino con un sufijo de longitud 2.

Para darte una idea de cómo se ve los datos, aquí hay una pequeña muestra: http://pastebin.com/tn6DFJAy

¿Crees que este es un enfoque razonable? ¿Es sensato separar las clases según la longitud del sufijo? ¿Y es seguro generar cinco instancias para cada sustantivo?

Para mi proyecto, estoy usando TiMBL. Los resultados para los datos son: http://pastebin.com/5wai65i1

2voto

Rob Allen Puntos 486

Me resulta un poco confuso tu motivación para esto (¿si es para una aplicación real, no sería más fácil usar un diccionario?), pero podría ser un interesante proyecto de lingüística computacional si estás intentando "redescubrir" las reglas o encontrar patrones en las irregulares.

Aunque estás obteniendo un rendimiento razonable (media AUC=0.7), creo que deberías reconsiderar cómo generas tanto las características como las etiquetas de clase.

Si observas la matriz de confusión al final de tus resultados, muchas de las ejemplos de 'f5' son clasificados incorrectamente como 'f4', 'f3', 'f2' y 'f1'. Parece extraño considerar estos como incorrectos, ¡ya que está acertando con el género (¡bien!), pero errando con la longitud del sufijo (¿realmente te importa?). Si no te importa, quizás solo tendrías que volver a codificarlos como 'f' y 'm', lo cual debería ser suficientemente fácil con buscar y reemplazar.

En cuanto a las características, parece que sería mejor tener múltiples características por instancia. Si estás probando la hipótesis de que el género está codificado en el sufijo, estaría tentado de intentar hacer que cada una de las últimas cinco letras sea una característica. Por ejemplo, en lugar de hacer:

esthé, t, f5, 
esthét i f4
esthéti q f3
esthétiq u f2
esthétiqu e f1

representar los mismos datos como

t, i, q, u, e, F #esthétique

Tal vez necesites un símbolo $\emptyset$ para palabras más cortas.

Finalmente, sería interesante pasar esto por un algoritmo que te proporcione reglas. Sería genial si las reglas aprendidas coinciden con las enseñadas en clase de francés (por ejemplo, [no importa],e,u,s,e-->femenino).

0voto

mempko Puntos 143

Echa un vistazo a mi sitio web sobre este tema, especialmente la página sobre sufijación y género - http://genderfrenchnouns.yolasite.com/derogation-1.php

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X