Para empezar, existe una familia de resultados que a veces se denominan " No hay almuerzo gratis ". Cada uno de estos resultados, a su manera, afirma que cualquier algoritmo de optimización es tan bueno como cualquier otro si se promedia sobre el espacio de todos los problemas de optimización. Por otro lado, sabemos que en determinados ámbitos algunos algoritmos superan ampliamente a todos los demás (que conozcamos): para detectar objetos en imágenes, las redes neuronales convolucionales son lo más avanzado, y en lingüística computacional lo mejor que se puede hacer para la mayoría de las tareas es una red neuronal con una arquitectura LSTM o transformadora. En ambos casos, los algoritmos más avanzados funcionan mucho mejor que, por ejemplo, la regresión logística.
¿Cómo podemos conciliar los teoremas de "No hay almuerzo gratis" con nuestra experiencia empírica? La respuesta tiene que ser que la detección de objetos en imágenes y las tareas estándar de la PNL no son problemas de optimización "típicos": alguna combinación de los datos y la tarea tiene alguna estructura especial que determinadas arquitecturas neuronales son excepcionalmente buenas para detectar. ¿Cuál es esta estructura? ¿Por qué los algoritmos conocidos son tan buenos para aprenderla? ¿Podemos generar nuevos algoritmos (neuronales o de otro tipo) que sean aún mejores?
Todos estos problemas son esencialmente matemáticos y se sitúan en algún lugar de la intersección entre la teoría de la optimización y la teoría de la información. Son bastante abiertos -excepto en casos sencillos como la regresión logística- no hay mucha teoría que caracterice un algoritmo como óptimo para una tarea concreta entre el espacio de todos los algoritmos de optimización posibles. Un influyente papel de 2014 propone utilizar la teoría de grupos de renormalización de la física para abordar esta cuestión, y hay otros intentos que utilizan la teoría gauge o el principio de máxima entropía. Otra línea de ataque es la llamada "hipótesis del múltiple", que afirma que los conjuntos de datos del mundo real (presentados como un conjunto de puntos en el espacio euclidiano) tienden a agruparse cerca de un submúltiple de alta codimensión.
Esa es mi respuesta a su principal pregunta técnica, pero también haré una observación sobre la política académica. Hay muchas más ofertas de trabajo en ciencia de datos que personas para cubrirlas, hasta el punto de que muchas empresas (como AirBnB) han descubierto que es más barato y fácil poner en marcha programas internos de formación en ciencia de datos que contratar a gente de fuera. No es probable que este problema desaparezca a corto plazo, por lo que es sensato incentivar a las universidades para que inicien programas de grado en este campo, aunque todavía no sea una disciplina académica totalmente desarrollada. Esto tiene muchos precedentes históricos: por ejemplo, los programas académicos de ciencias forenses y matemáticas financieras surgieron de la misma manera en la década de 1990.
7 votos
¿Por qué "como mucho"? También se podría decir, e históricamente la gente lo decía: "¿por qué tener un puesto académico en informática en lugar de organizar una colaboración interdisciplinar entre matemáticas e ingeniería eléctrica?". La idea de un esfuerzo intelectual distinto puede seguir a la creación de un departamento.
7 votos
@MattF. Bueno, ¡por eso hago la pregunta! Hay una respuesta que dar para la informática. ¿Qué hay de la ciencia de los datos?
9 votos
Incluso si algunos matemáticos no encuentran interesante la ciencia de datos... todavía hay gente (incluyéndome a mí) que hace ciencia de datos, y la encuentra interesante, y usa algo de matemáticas, y tiene cosas en el área para enseñar a los estudiantes, que los estudiantes encuentran valiosas, y que son tan comprobables y certificables como cualquier otra cosa en la academia.Eso y los incentivos económicos juntos justifican los departamentos de ciencia de datos para mí.
0 votos
Cosmética, farmacia, textil, branding, estudios de mercado... Las tendencias pueden ser intrínsecamente aburridas para esos temas. cosas como los alimentos, la energía, la electrónica. investigar datos de ellos podría ser soportable en un buen contexto. Cosas como los clics en la web, el comportamiento en línea, los datos de las ciencias ambientales, los datos satelitales, los datos de la delincuencia, podrían ser casi divertidos. Puedes ser un buen profesor, los números base que te suministran podrían ser bastante pobres.
0 votos
El aprendizaje automático es sin duda muy interesante desde el punto de vista de la ingeniería. Este campo está avanzando muy rápidamente y hay todo tipo de ideas nuevas sobre cómo diseñar redes neuronales para diversas tareas.
1 votos
Hay algunas buenas respuestas aquí, así que sólo un comentario. Una parte clave de la ciencia de datos es el uso de redes neuronales. Dado un problema, tenemos que definir una red con una arquitectura adecuada, entrenarla, y voilá, ya está. El único problema: qué es "adecuado". Actualmente esto se hace más por ensayo y error que sobre la base de una teoría adecuada.
2 votos
Por mucho que nos guste pensar que los distintos departamentos académicos representan esfuerzos intelectuales distintos (¿quizás en algún paraíso platónico donde el verdadero conocimiento está perfectamente separado en cubos disjuntos?), creo que la realidad es que dominan las consideraciones pragmáticas. En la práctica, es difícil conseguir la titularidad y la promoción haciendo sólo trabajo interdisciplinar, por lo que se tiende a descuidar en favor de actividades que se ganan más respeto. Si quieres que algún área reciba mucha atención, la mejor estrategia suele ser crear un nuevo departamento, independientemente de cómo se vean las cosas en el cielo platónico.
0 votos
¿Son las piedras matemáticamente interesantes? Claro, tienen cierta estructura cristalina, se pueden hacer preguntas de empaque sobre ellas, usarlas para jugar y estudiar las matemáticas de los juegos.
0 votos
No merece la pena una respuesta completa, pero el Análisis Topológico de Datos parece aportar muchas matemáticas a la Ciencia de Datos.