Estimación de la mejor longitud del n-grama

Question

Estimación de la mejor longitud del n-grama

Preguntado el 4 de Junio, 2015: Cuando se hizo la pregunta
3104 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo una larga secuencia de palabras o letras {palabra1 palabra2 palabra3 palabra1 palabra1 palabra2 ..etc}. Digamos que extraemos todos los ngramas (unigramas, bigramas, trigramas, 4-gramas, 5-gramas ....) junto con su frecuencia de un texto.

Mi pregunta es simplemente cómo podemos encontrar "estadísticamente" la mejor longitud del n-grama dado este texto. es unigrama, bigrama, trigrama, 4-grama, 5-grama o valor-grama.
Tenga en cuenta que no tengo ningún conocimiento previo sobre el texto.

Preguntado el 4 de Junio, 2015 por Muffo

Answer 1

1 Respuestas

Answer 2

7voto

Alexey Grigorev Puntos 1751

Podría haber algún criterio estadístico para seleccionar los mejores $n$ pero creo que la mejor manera de seleccionar cualquier parámetro es utilizar validación cruzada .

Supongamos que está construyendo un sistema para detectar el idioma de un artículo y que ha decidido utilizar n-gramas (n-shingles) para representar los documentos. Entonces, para seleccionar el mejor $n$ En este caso, se divide el conjunto de datos en subconjuntos de entrenamiento y de prueba, y se ejecuta una validación cruzada de 10 veces en el conjunto de entrenamiento para cada $n \in \{1, 2, 3, 4, \ ... \}$ y seleccionar tal $n$ que minimiza el error de validación.

La CV también puede utilizarse en el aprendizaje no supervisado, véase por ejemplo (1)

[1] Patrick O. Perry, "Cross-Validation for Unsupervised Learning", http://arxiv.org/abs/0909.3052

Respondido el 4 de Junio, 2015 por Alexey Grigorev (1751 Puntos )

Estimación de la mejor longitud del n-grama

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Estimación de la mejor longitud del n-grama

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: