Mis alumnos lo hacen como proyecto de clase. Algunos equipos alcanzaron el 70% de precisión, con muestras bastante pequeñas, lo que no está mal.
Digamos que tienes unos datos como estos:
Return Symbol News Text
-4% DELL Centegra and Dell Services recognized with Outsourcing Center's...
7% MSFT Rising Service Revenues Benefit VMWare
1% CSCO Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4% GOOG Summary Box: Google eyes more government deals
7% AAPL Sohu says 2nd-quarter net income rises 10 percent on higher...
Quiere predecir el rendimiento basándose en el texto.
Esto se llama Text Mining.
Lo que se hace en última instancia es crear una enorme matriz como esta:
Return Centegra Rising Services Recognized...
-4% 0.23 0 0.11 0.34
7% 0 0.1 0.23 0
...
Tiene una columna para cada palabra única, y una fila para cada retorno, y una puntuación ponderada para cada palabra. La puntuación suele ser la puntuación TFIDF, o la frecuencia relativa de la palabra en el documento.
A continuación, realiza una regresión y comprueba si puedes predecir qué palabras predicen el rendimiento. Probablemente tendrás que utilizar primero el PCA.
Libro: Fundamentos de la minería predictiva de textos, Weiss
Software: RapidMiner con Text Plugin o R
También deberías hacer una búsqueda en Google Scholar y leer sobre los pormenores.
Puedes ver mi serie de vídeos de minería de textos aquí
0 votos
¿Qué quiere decir con tipos de contenido "textual"?
0 votos
¿Podría mostrar algunos datos de ejemplo?
0 votos
@Srikant Vadali - los datos de muestra podrían ser comunicados de prensa, noticias, etc los datos textuales serían de forma libre, probablemente obtenidos de feeds rss o similares. Los datos de mercado para una empresa determinada es lo que estoy buscando para analizar / correlacionar. Así que tal vez el bloguero Bill escribe una historia sobre un próximo lanzamiento de características de VMware, y VMW salta un 10%. (Demasiado simplificado, lo sé)