Aprendizaje basado en memoria: Predicción del género de los sustantivos franceses

Question

Aprendizaje basado en memoria: Predicción del género de los sustantivos franceses

Preguntado el 29 de Enero, 2012: Cuando se hizo la pregunta
239 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de predecir el género de sustantivos en francés basándome en sus sufijos. Tengo un corpus de 10k sustantivos. Para cada sustantivo, separo la raíz del sufijo. Creo cinco instancias pero con longitudes de sufijos variables: 1, 2, 3, 4 y 5.

El nombre de clase que asigno a cada instancia está compuesto por el género y la longitud del sufijo, por ejemplo, "f2" para un sustantivo femenino con un sufijo de longitud 2.

Para darte una idea de cómo se ve los datos, aquí hay una pequeña muestra: http://pastebin.com/tn6DFJAy

¿Crees que este es un enfoque razonable? ¿Es sensato separar las clases según la longitud del sufijo? ¿Y es seguro generar cinco instancias para cada sustantivo?

Para mi proyecto, estoy usando TiMBL. Los resultados para los datos son: http://pastebin.com/5wai65i1

Preguntado el 29 de Enero, 2012 por Rémy van Duijkeren

Answer 1

2 Respuestas

Answer 2

2voto

Rob Allen Puntos 486

Me resulta un poco confuso tu motivación para esto (¿si es para una aplicación real, no sería más fácil usar un diccionario?), pero podría ser un interesante proyecto de lingüística computacional si estás intentando "redescubrir" las reglas o encontrar patrones en las irregulares.

Aunque estás obteniendo un rendimiento razonable (media AUC=0.7), creo que deberías reconsiderar cómo generas tanto las características como las etiquetas de clase.

Si observas la matriz de confusión al final de tus resultados, muchas de las ejemplos de 'f5' son clasificados incorrectamente como 'f4', 'f3', 'f2' y 'f1'. Parece extraño considerar estos como incorrectos, ¡ya que está acertando con el género (¡bien!), pero errando con la longitud del sufijo (¿realmente te importa?). Si no te importa, quizás solo tendrías que volver a codificarlos como 'f' y 'm', lo cual debería ser suficientemente fácil con buscar y reemplazar.

En cuanto a las características, parece que sería mejor tener múltiples características por instancia. Si estás probando la hipótesis de que el género está codificado en el sufijo, estaría tentado de intentar hacer que cada una de las últimas cinco letras sea una característica. Por ejemplo, en lugar de hacer:

esthé, t, f5, 
esthét i f4
esthéti q f3
esthétiq u f2
esthétiqu e f1

representar los mismos datos como

t, i, q, u, e, F #esthétique

Tal vez necesites un símbolo $\emptyset$ para palabras más cortas.

Finalmente, sería interesante pasar esto por un algoritmo que te proporcione reglas. Sería genial si las reglas aprendidas coinciden con las enseñadas en clase de francés (por ejemplo, [no importa],e,u,s,e-->femenino).

Respondido el 30 de Enero, 2012 por Rob Allen (486 Puntos )

Answer 3

0voto

mempko Puntos 143

Echa un vistazo a mi sitio web sobre este tema, especialmente la página sobre sufijación y género - http://genderfrenchnouns.yolasite.com/derogation-1.php

Respondido el 31 de Enero, 2012 por mempko (143 Puntos )

Aprendizaje basado en memoria: Predicción del género de los sustantivos franceses

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Aprendizaje basado en memoria: Predicción del género de los sustantivos franceses

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: