7 votos

¿Modelado de datos en tiempo real?

Estoy interesado en herramientas y técnicas que pueden ser utilizadas para el análisis de la transmisión de datos en "tiempo real"*, donde la latencia es un problema. El ejemplo más común de esto es, probablemente, los datos de precios de un mercado financiero, aunque también se produce en otros campos (por ejemplo, búsqueda de tendencias en Twitter o en las búsquedas de Google).

En mi experiencia, la más común categoría de software para esto es "el procesamiento de eventos complejos". Esto incluye software comercial como Streambase y Aleri o de código abierto, tales como Esper o Telégrafo (que fue la base para la Truviso).

Muchos de los modelos existentes no son adecuadas para este tipo de análisis debido a que son demasiado costosas computacionalmente. Son los modelos** específicamente diseñado para trabajar con datos en tiempo real? ¿Qué herramientas se pueden utilizar para esto?

* Por "tiempo real", me refiero a "análisis de datos ya que es creado". Así que no me refiero a "los datos que tiene sobre la base del tiempo de relevancia" (como en esta charla por Hilary Mason).

** Por "modelo", me refiero a una abstracción matemática que describe el comportamiento de un objeto de estudio (por ejemplo, en términos de las variables aleatorias y sus distribuciones de probabilidad), ya sea para la descripción o de previsión. Esto podría ser una máquina de aprendizaje o modelo estadístico.

9voto

Shawn Miller Puntos 3875

Va a depender mucho de lo que usted está buscando, pero comenzar en Data Streams: Algorithms and Application by Muthukrishnan .

Hay muchos otros que se pueden encontrar googling "algoritmos de flujo de datos", o siguiendo las referencias en el documento.

7voto

Paul G Puntos 1615

No estoy seguro de qué tipo de datos necesita procesar, pero los algoritmos estadísticos se utilizan con bastante frecuencia en robótica, arte de los medios de comunicación, procesamiento de señales digitales, etc. Puede ser útil tomar prestado de estos dominios.

5voto

Omar Kooheji Puntos 384

Esta zona casi cae en dos categorías. El primero se refiere a la secuencia de procesamiento y consulta de los temas y los modelos asociados y algoritmos. La segunda es eficiente los algoritmos y modelos para el aprendizaje de flujos de datos (o flujo de datos minería de datos).

Es mi impresión que el CEP de la industria está conectada a la primera zona. Por ejemplo, StreamBase se originó a partir de la Aurora proyecto en Marrón/Brandeis/MIT. Un proyecto similar fue Widom del FLUJO de la universidad de Stanford. La revisión de las publicaciones en cualquiera de los proyectos' sitios deben ayudar a la exploración de la zona.

Un buen documento resumen de los temas de investigación (en el 2002) a partir de la primera área es de los Modelos y problemas en el flujo de datos de los sistemas por Babcock et al. En el flujo de minería de datos, te recomiendo empezar con la Minería de Flujos de Datos: Una Revisión por parte de Gaber et al.

Por CIERTO, no estoy seguro exactamente lo que usted está interesado en la medida en que los modelos específicos. Si el flujo de minería de datos y la clasificación en particular, la VFDT es una elección popular. Los dos artículos de revisión (enlazado más arriba) punto a muchos otros modelos y es muy contextual.

4voto

Anders Sandvig Puntos 7964

Las redes bayesianas son perfectas para la estimación en línea, y ofrecen una gran diversidad de modelos.

0voto

Assaf Lavie Puntos 207

usted tiene postrank http://data.postrank.com/content

¿Cómo se puede ordenar lo que el contenido es actual y significativa? Nosotros lo hacemos por usted. PostRank reúne el contenido original, así como la información en la alimentación y la historia de nivel. Esto incluye título, autor, idioma, etiquetas y enlaces relacionados.

Analizamos los datos para ofrecer información oportuna, socialmente relevante de millones de fuentes en línea. A continuación, nos entregan como usted la desea. En tiempo Real, personalizado, acceso filtrado a cada pieza de contenido de índice, junto con sus metadatos enriquecidos

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X