9 votos

Automatización de la correlación estadística entre "textos" y "datos"

Estoy recopilando datos textuales en torno a comunicados de prensa, publicaciones en blogs, reseñas, etc. de los productos de determinadas empresas y su rendimiento.

En concreto, estoy tratando de ver si existen correlaciones entre ciertas tipos y/o fuentes de dicho contenido "textual" con las valoraciones de mercado de los símbolos bursátiles de las empresas.

Tal aparentemente La mente humana puede encontrar correlaciones con bastante rapidez, pero eso no es escalable. ¿Cómo puedo automatizar este análisis de fuentes dispares?

0 votos

¿Qué quiere decir con tipos de contenido "textual"?

0 votos

¿Podría mostrar algunos datos de ejemplo?

0 votos

@Srikant Vadali - los datos de muestra podrían ser comunicados de prensa, noticias, etc los datos textuales serían de forma libre, probablemente obtenidos de feeds rss o similares. Los datos de mercado para una empresa determinada es lo que estoy buscando para analizar / correlacionar. Así que tal vez el bloguero Bill escribe una historia sobre un próximo lanzamiento de características de VMware, y VMW salta un 10%. (Demasiado simplificado, lo sé)

5voto

Dori Puntos 1325

Mis alumnos lo hacen como proyecto de clase. Algunos equipos alcanzaron el 70% de precisión, con muestras bastante pequeñas, lo que no está mal.

Digamos que tienes unos datos como estos:

Return Symbol News Text
-4%  DELL   Centegra and Dell Services recognized with Outsourcing Center's...
7%   MSFT   Rising Service Revenues Benefit VMWare
1%   CSCO   Cisco Systems (CSCO) Receives 5 Star Strong Buy Rating From S&P
4%   GOOG   Summary Box: Google eyes more government deals
7%   AAPL   Sohu says 2nd-quarter net income rises 10 percent on higher...

Quiere predecir el rendimiento basándose en el texto.

Esto se llama Text Mining.

Lo que se hace en última instancia es crear una enorme matriz como esta:

Return Centegra Rising Services Recognized...
-4%    0.23     0      0.11     0.34
7%     0        0.1    0.23     0
...

Tiene una columna para cada palabra única, y una fila para cada retorno, y una puntuación ponderada para cada palabra. La puntuación suele ser la puntuación TFIDF, o la frecuencia relativa de la palabra en el documento.

A continuación, realiza una regresión y comprueba si puedes predecir qué palabras predicen el rendimiento. Probablemente tendrás que utilizar primero el PCA.

Libro: Fundamentos de la minería predictiva de textos, Weiss

Software: RapidMiner con Text Plugin o R

También deberías hacer una búsqueda en Google Scholar y leer sobre los pormenores.

Puedes ver mi serie de vídeos de minería de textos aquí

0 votos

Parece un comienzo muy prometedor :)

1voto

Flatlineato Puntos 226

Como en el caso anterior, se necesita un conjunto de artículos y respuestas, y luego se entrena, por ejemplo, una red neuronal con ellos. RapidMiner le permitirá hacer esto, pero hay muchas otras herramientas que le permitirán hacer regresiones de este tamaño. Lo ideal es que su variable de respuesta sea consistente (es decir, % de cambio después de 1 hora exactamente, o % de cambio después de 1 día exactamente, etc.).

También puede aplicar algún tipo de filtro o clasificación a sus variables de entrenamiento, es decir, las palabras del artículo. Esto puede ser tan simple como filtrar algunas palabras (por ejemplo, preposiciones, pronombres) o más complejo como utilizar la sintaxis para elegir qué palabras deben entrar en la regresión. Tenga en cuenta que cualquier filtrado que haga corre el riesgo de sesgar el resultado.

Algunas personas de la Universidad de Arizona ya hicieron un sistema que hace esto - su documento está en acm aquí y puede encontrarlo interesante. http://www.computer.org/portal/web/csdl/doi/10.1109/MC.2010.2 (necesitarás una suscripción para acceder si no estás por ejemplo en la universidad). Las referencias también pueden ayudarte a orientarte en la dirección correcta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X