Intento predecir el tiempo de compromiso de un artículo a partir del texto del mismo. Estoy extrayendo un montón de características como el número de palabras del artículo, el número de caracteres del artículo, el número de párrafos del artículo, etc.
Luego hago TFIDF para obtener una tonelada más de características.
Finalmente, hago esto:
selector = SelectKBest(k=1000)
X = pd.DataFrame(selector.fit_transform(X, y))
Efectivamente, quiero obtener las 1.000 características más relevantes. Sin embargo, cuando lo inspecciono con:
X.head()
Parece que todas las características del TFIDF; es decir, implica que la longitud del artículo en palabras o caracteres no es una característica del top 1.000.
Esto parece muy equivocado.
¿Podría alguien decirme qué estoy haciendo mal?
Merci !