1 votos

¿La manera más eficiente de dirigir mis estudios para una carrera en Ciencia de Datos/ML?

En primer lugar, no sé si esta pregunta es adecuada para este sitio. Intenté publicarla en Quora, pero era demasiado larga. Si no es una pregunta aceptable, ¿podría alguien sugerir un lugar más apropiado?

Soy un estudiante que actualmente está terminando una maestría en ingeniería eléctrica. En los últimos meses me he interesado mucho por la ciencia de los datos y el aprendizaje automático, y he decidido que me gustaría seguir este campo como carrera. Hay una enorme cantidad de recursos disponibles para aprender estos temas, lo cual es algo estupendo, pero para el principiante es un poco abrumador tratar de averiguar en qué recursos debo centrarme primero y cuál es la mejor manera de aprovechar mi tiempo. Mi objetivo es estar preparada para una entrevista para puestos de ciencia de datos junior/ingeniería de aprendizaje automático de nivel básico en unos 6-8 meses. Sé que este es un plazo pequeño y que tendré que trabajar muy duro para que esto sea posible. Actualmente estoy tomando un curso de introducción al aprendizaje automático que se supone que sigue libremente el libro Machine Learning: a Probabilistic Perspective de Kevin P. Murphy, junto con un curso de procesamiento de imágenes que espero que sea útil más adelante para la extracción de características y otros temas. Me he pasado un poco (¿mucho?) en las últimas semanas y he comprado varios libros de texto relacionados con la ciencia de los datos y el aprendizaje automático. También empecé el programa de nanotecnología para ingenieros de aprendizaje automático de Kaggle-Udacity.

¿Le importaría a alguien que tenga algo de experiencia en el campo sugerir un orden aproximado de cómo debería dirigir mis estudios con respecto a los recursos que he recopilado? Los libros/recursos que tengo actualmente a mi disposición son:

Servicios en línea:

  • Ruta del científico de datos de Dataquest.io (25% completado)

  • Kaggle-Udacity programa de nanotítulo de ingeniero de aprendizaje automático

Libros:

  • Haz tu propia red neuronal (100% completado)

  • Introducción al aprendizaje estadístico con R (50% completado)

  • Aprendizaje profundo (25% completado)

  • Aprendizaje automático en Python (25% completado)

  • Los elementos del aprendizaje estadístico

  • Aprendizaje automático: Una perspectiva probabilística

  • Análisis bayesiano de datos

  • Ciencia de datos práctica con R

  • Ciencia de los datos para la empresa

  • Estadísticas de OpenIntro

  • Teoría de la probabilidad La lógica de la ciencia

A estas alturas he leído los capítulos introductorios de todos estos libros, pero empiezo a sentirme un poco desordenado en mi enfoque. Sé que será difícil completarlos todos en 6-8 meses, así que ¿cuál sería el más importante en el que centrarse para parecer competente a los directores de contratación?

5voto

Mohammadreza Puntos 1964

Creo que alguien cerrará esta pregunta, pero de todas formas te daré una ayuda.

  • El nanodiagrama es caro y, en mi opinión, poco útil
  • Deberías familiarizarte con la regresión. No te molestes en hacer deep learning si no sabes hacer regresión lineal
  • Aprender las herramientas prácticas (por ejemplo, tensorflow). Intenta entrenar los dígitos de MINST, ¿puedes hacerlo? Luego, intenta entrenar algo más difícil. Kaggle es tu mejor amigo.
  • Practica tus habilidades en las competiciones de Kaggle y mira las presentaciones de otras personas. Lee, estudia, bifurca y pregunta sus soluciones.
  • Aprende lo básico sobre ingeniería de características, mira cómo lo hace la gente de Kaggle.
  • Tienes demasiados libros para leer. El aprendizaje profundo probablemente no se espera para un puesto de graduado, así que sáltatelo. Necesitas dedicar más tiempo a los fundamentos.
  • Nada de su libro es sobre la visualización. La visualización de datos es en realidad la habilidad más importante para un científico de datos. De nuevo, deja tu libro de aprendizaje profundo y tu análisis bayesiano. Estudia el gráfico PCA, el gráfico de dispersión, el histograma, el suavizado de la distribución normal, la curva ROC, etc.
  • Debería estar familiarizado con los paquetes R más comunes, como ggplot y car .
  • También deberías aprender scikit-learn , numpy y pandas Paquetes de Python. Son muy populares en la industria.
  • Entrena tu programación en R y Python
  • Visitar Kaggle todos los días, marcarlo como favorito

Normalmente, algunas de las cosas avanzadas que se leen, como el análisis bayesiano y la teoría de la probabilidad, las hacen personas con un título de doctorado. No tienes tiempo para leerlo, centrarse en lo que la gente habla en Kaggle .

EDITAR:

  • Estudiar las métricas de clasificación, como la matriz de confusión. Lea lo que debe hacer si su conjunto de datos está desequilibrado. Debes entender cuándo utilizar la exactitud y cuándo la precisión.
  • Estudiar cómo trabajar con diferentes formatos de datos - CSV, REST API, SQL, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X