6 votos

Gestión de proyectos para la colaboración a distancia en la predicción

Existen herramientas para la colaboración a distancia en la predicción o la máquina de aprendizaje?

Estoy buscando un entorno de computación que incluye adecuado control de código fuente, realiza un seguimiento de cómo los diferentes conjuntos de datos son coincidentes con los diferentes algoritmos, y facilita la fusión de diversas predicciones. ¿Qué herramientas serían útiles para esto?

1voto

Eclipse Puntos 27662

No sé de ningún off-the-shelf productos diseñados específicamente para la colaboración de construcción de modelos predictivos, pero pienso que usted puede rodar su propia solución a partir de un buen sistema de control de versiones como git o hg y tareas de secuencias de comandos para hacer que cada paso reproducible.

  • Todos los conjuntos de datos absolutamente debe permanecer fuera de control de la versión, pero usted debe escribir shell o SQL o python, etc. los scripts que captura los datos en bruto de sus diversas fuentes, y realizar cualquier de datos "fotográficos" tipo de tareas (filtrado, limpieza, transformación, y así sucesivamente). Estos manipulación de datos de secuencias de comandos deben ser objeto de seguimiento en el control de la versión, y me gusta el nombre de ellas, de tal forma que si hay dependencias o un orden implícito, que se mantiene en el natural (alfabético) listado de directorio. Por ejemplo, que pueden tener secuencias de comandos:

    01-fetch_census_data.sh

    02-scrub_census_incomes.sh

    03-60train_20test_20val_split.sh

    03-75train_25test_split.sh

    ...

    y así sucesivamente. Dependiendo de cuánto tiempo desea invertir, puede escribir código para la caché de resultados intermedios, de forma larga de la ejecución de medidas que sólo se ejecutan cuando sea necesario, o tienen dependencias automáticamente identificados y manejados.

  • Del mismo modo, usted tendrá una cierta cantidad de código escrito en tu modelo favorito lenguaje de desarrollo que tendrá en la elaboración de conjuntos de datos y tal vez aprendido modelo (hiper-)parámetros y producir algunos resultados en la forma de los sabios, los parámetros del modelo, o predicciones sobre algún conjunto de datos. Desea realizar un seguimiento de este código, pero también quiere seguir en el control de la versión del aprendió los valores de parámetro (para su posterior fusión).

  • Finalmente, necesitará algunas de nivel superior controlador de secuencia de comandos que recoge la adecuada combinación secuencial de procesamiento de datos y modelado del algoritmo de secuencias de comandos. Este debe representar una completa de extremo a extremo experimento a partir de los datos crudos y terminando con un modelo de aprendizaje (y probablemente alguna forma de evaluación ex. las parcelas o las métricas de rendimiento que de nuevo puede ser mantenido bajo el control de versión de la referencia).
  • La cosa importante a tener en cuenta es que uno de sus colaboradores debe ser capaz de simplemente tomar un clon de su repositorio, y suponiendo que tiene los derechos de acceso necesarios para su cruda de las fuentes de datos, completamente reproducir (y extender) cualquiera de sus experimentos
  • Si utiliza R, echa un vistazo a algo así como el ProjectTemplate paquete como un buen esqueleto punto de partida para su proyecto

0voto

Loren Pechtel Puntos 2212

Estos podrían ser útiles: Kepler, Proceso de Makna, Taberna, y este papel.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X