Me pregunto por qué el skip-gram es mejor para las palabras infrecuentes que el CBOW en word2vec. He leído la afirmación en https://code.google.com/p/word2vec/ .
Creo que el propio Mikolov escribió ese conjunto de herramientas. Curiosamente, en su documento: papers.nips.cc/paper/ Dice: "Demostramos que el submuestreo de las palabras frecuentes durante el entrenamiento resulta en un aumento significativo de la velocidad (alrededor de 2x - 10x), y mejora la precisión de las representaciones de las palabras menos frecuentes", por lo que su skip-gram con la extensión del submuestreo.