Me impresionaron los resultados de la ponencia del ICML 2014 " Representaciones distribuidas de frases y documentos "de Le y Mikolov. La técnica que describen, denominada "vectores de párrafo", aprende representaciones no supervisadas de párrafos/documentos arbitrariamente largos, basándose en una extensión del modelo word2vec. El artículo presenta los resultados más avanzados del análisis de sentimientos con esta técnica.
Esperaba evaluar esta técnica en otros problemas de clasificación de textos, como alternativa a la representación tradicional de bolsa de palabras. Sin embargo, me encontré con un post del segundo autor en un hilo del grupo de Google de word2vec que me hizo reflexionar:
Yo mismo intenté reproducir los resultados de Quoc durante el verano; pude obtener tasas de error en el conjunto de datos IMDB de entre el 9,4% y el 10% (dependiendo de la calidad de la normalización del texto). la normalización del texto). Sin embargo, no pude acercarme Quoc en su artículo (7,4% de error, una diferencia enorme)... diferencia) ... Por supuesto, también le preguntamos a Quoc por el código. prometió publicarlo, pero hasta ahora no ha sucedido nada ... Estoy empezando a pensar que los resultados de Quoc no son reproducibles.
¿Alguien ha conseguido reproducir estos resultados?