33 votos

¿Qué asignaturas de matemáticas sugeriría para preparar la minería de datos y el aprendizaje automático?

Estoy tratando de elaborar un plan de estudios de matemáticas autodirigido para preparar el aprendizaje de la minería de datos y el aprendizaje automático. Esto está motivado por comenzar Clase de aprendizaje automático de Andrew Ng en Coursera y sintiendo que antes de continuar necesitaba mejorar mis habilidades matemáticas. Me gradué de la universidad hace tiempo, así que mi álgebra y estadística (específicamente de las clases de ciencias políticas/psicología) están oxidadas.

Las respuestas en el hilo ¿Es un requisito total tener una sólida formación en matemáticas para el ML? sólo sugieren libros o clases directamente relacionadas con el aprendizaje automático; ya he mirado algunas de esas clases y libros y no sé exactamente qué materia matemática estudiar (por ejemplo: ¿qué campo[s] de las matemáticas abordan la derivación de una ecuación para "minimizar una función de coste"?) En el otro hilo se sugirió ( Habilidades y cursos necesarios para ser analista de datos ) sólo menciona amplias categorías de habilidades necesarias para el análisis de datos. El hilo conductor Introducción a la estadística para matemáticos no se aplica porque no tengo ya una licenciatura en matemáticas; un hilo similar El matemático quiere tener los conocimientos equivalentes a una licenciatura en estadística de calidad tiene una lista increíble de libros de estadística, pero de nuevo, estoy buscando comenzar las matemáticas desde un recuerdo oxidado de álgebra y avanzar desde allí.

Por lo tanto, para aquellos que trabajan en el aprendizaje automático y la minería de datos, ¿qué campos de las matemáticas le parecen esenciales para realizar su trabajo? ¿Qué asignaturas de matemáticas sugeriría para preparar la minería de datos y el aprendizaje automático, y en qué orden? Esta es la lista y el orden que tengo hasta ahora:

  • Álgebra
  • Precálculo
  • Cálculo
  • Álgebra lineal
  • Probabilidad
  • Estadística (aquí hay muchos subcampos diferentes, pero no sé cómo desglosarlos)

En cuanto a la minería de datos y el aprendizaje automático, a través de mi trabajo actual tengo acceso a registros de actividad de sitios web/aplicaciones, transacciones de clientes/suscripciones y datos inmobiliarios (tanto estáticos como de series temporales). Espero poder aplicar la minería de datos y el aprendizaje automático a estos conjuntos de datos.

Gracias.

EDITAR:

Para la posteridad, quería compartir un útil autoevaluación de matemáticas para la obra de Geoffrey Gordon/Alex Smola Introducción al aprendizaje automático clase en la CMU.

17voto

tylerharms Puntos 79

Sin duda, merece la pena seguir las sugerencias de @gung. Habiendo hecho el curso de coursera, creo que tu lista es un buen comienzo. Algunos comentarios:

  1. El álgebra lineal y el álgebra matricial son la misma cosa, así que deja esta última.
  2. en el cálculo asegúrese de incluir la diferenciación parcial. Esto es el cálculo aplicado a funciones de más de una variable (simbólicamente, si, por ejemplo, $z$ es una función de $x$ y $y$ entonces quieres $\frac{\partial z}{\partial x}$ en lugar de $\frac{\rm{d}z}{\rm{d}x}$ ). Afortunadamente, esto no es difícil.
  3. en el cálculo no necesitas nada más allá de la integración básica (y quizá ni siquiera eso). Esto es una suerte porque la integración es difícil.
  4. añadir la optimización básica, es decir, encontrar el máximo o el mínimo de una función, normalmente una función de más de una variable. Es esencial tener una idea del descenso del gradiente, como mínimo.
  5. En términos de dificultad, probablemente quieras estar en algún lugar entre el principio y el final del primer año de licenciatura.
  6. Intenta leer algunos textos básicos de probabilidad y estadística, en línea o no, pero no te preocupes demasiado (las matemáticas básicas son un requisito previo de todos modos para entender la probabilidad y la estadística). Si haces algunos cursos como el que propones te darás cuenta de lo que necesitas aprender y dónde están tus intereses. Una cosa que no quieres hacer, al menos al principio, es pasar mucho tiempo aprendiendo sobre pruebas de hipótesis. Más bien querrás orientarte hacia la comprensión de la estadística básica -variables aleatorias, distribuciones de probabilidad (DFP, FCD), estadística descriptiva- y luego tratar de entender la regresión.

Yo añadiría el libro Matemáticas para el aprendizaje automático por Marc Peter Deisenroth , publicado en 2020, parece una base excelente, que incluye lo anterior y mucho más.

5voto

GregF Puntos 53

Hay un par de hilos excelentes en este foro incluyendo ESTE que me ha resultado especialmente útil para desarrollar un esquema conceptual de las habilidades importantes para el trabajo en ciencia de datos.

Como se ha mencionado anteriormente, hay muchos cursos en línea disponibles. Por ejemplo, Coursera tiene ahora un Especialización en ciencia de los datos con una serie de cursos que probablemente cubrirían algunas de las herramientas que necesitarías para tu trabajo.

3voto

Johan Puntos 114

Si quieres ampliar tus conocimientos sobre el aprendizaje automático y la minería de datos, te recomiendo la optimización, el álgebra lineal, la estadística y la probabilidad. Aquí es una lista de libros de probabilidad. Espero que te sirva de ayuda.

3voto

mooware Puntos 945

En cuanto a repasar habilidades matemáticas muy básicas, estoy usando estos libros:

Elementos de matemáticas para la economía y las finanzas. Mavron, Vassilis C., Phillips, Timothy N Este libro abarca desde las habilidades matemáticas esenciales (suma y resta), hasta la diferenciación parcial, la integración, las matrices y los determinantes, y un pequeño capítulo sobre optimización, y también sobre ecuaciones diferenciales. Está dirigido a la economía y las finanzas, pero es un libro pequeño, la secuencia de los capítulos se adapta a mis necesidades y es de fácil lectura para mí.

Análisis estadístico: Microsoft Excel 2010. Conrad Carlberg Cubre el análisis estadístico básico, hasta la regresión múltiple y el análisis de covarianza, y utiliza Excel.

Discovering Statistics Using R. Andy Field, Jeremy Miles, Zoë Field. Todavía no lo he leído. Utiliza R.

Álgebra lineal elemental. Ron Larson, David C. Falvo.

Métodos matriciales: Applied Linear Algebra por Richard Bronson, Gabriel B. Costa. Cubre el álgebra lineal elemental y el cálculo matricial

Estos son los libros básicos de matemáticas que utilizo para relacionarme con la minería de datos / aprendizaje automático

Espero que esto ayude

3voto

anthr Puntos 93

Hay una gran cantidad de recursos relevantes listados (y categorizados) aquí en el llamado "Open Source Data Science Masters".

Específicamente para las matemáticas se enumeran:

  1. Álgebra lineal y programación
  2. Estadísticas
  3. Ecuaciones diferenciales y cálculo

Recomendaciones bastante genéricas, aunque enumeran algunos libros de texto que podrían ser útiles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X