81 votos

¿Es la ciencia de los datos matemáticamente interesante?

En los últimos años he visto una gran cantidad de anuncios de trabajo en mathjobs.org para puestos académicos en ciencia de datos . Ahora entiendo por qué las presiones económicas harían que esto sucediera, pero desde una visión tradicional de la organización universitaria, pero ¿cómo encaja la ciencia de los datos?

Yo habría supuesto que, como mucho, un grupo de investigación que tuviera que ver con algo etiquetado como "ciencia de los datos" podría formarse como un proyecto interdisciplinar entre matemáticos aplicados, estadísticos e informáticos, con financiación corporativa. Pero no veo por qué es un esfuerzo intelectual fundamentalmente distinto, que impulsa la contratación de matemáticos específicamente en la ciencia de los datos.

La primera vez que oí el término "ciencia de los datos", se decía que querían coger a doctores que tuvieran experiencia en el análisis estadístico de grandes conjuntos de datos y formarlos durante unas semanas para que aplicaran esas habilidades al marketing y la publicidad. Ahora, pocos años después, la gente quiere contratar profesores de esto.

Pregunta: ¿Qué hay en la ciencia de los datos que sea especialmente interesante desde el punto de vista matemático?

7 votos

¿Por qué "como mucho"? También se podría decir, e históricamente la gente lo decía: "¿por qué tener un puesto académico en informática en lugar de organizar una colaboración interdisciplinar entre matemáticas e ingeniería eléctrica?". La idea de un esfuerzo intelectual distinto puede seguir a la creación de un departamento.

7 votos

@MattF. Bueno, ¡por eso hago la pregunta! Hay una respuesta que dar para la informática. ¿Qué hay de la ciencia de los datos?

9 votos

Incluso si algunos matemáticos no encuentran interesante la ciencia de datos... todavía hay gente (incluyéndome a mí) que hace ciencia de datos, y la encuentra interesante, y usa algo de matemáticas, y tiene cosas en el área para enseñar a los estudiantes, que los estudiantes encuentran valiosas, y que son tan comprobables y certificables como cualquier otra cosa en la academia.Eso y los incentivos económicos juntos justifican los departamentos de ciencia de datos para mí.

62voto

kixx Puntos 2452

Me mantendré al margen de la política académica de contratación de "profesores de ciencia de datos", pero si interpreto la pregunta más específicamente como "¿ofrece la ciencia de datos problemas de interés matemático?", podría referirme a la lista de Bandeira de 42 Problemas abiertos en las matemáticas de la ciencia de los datos.

(La lista completa de 2016 es aquí y la página de Bandeira enlaza con las soluciones de algunos de ellos).

4 votos

Ja, esta lista incluye algunos de mis problemas abiertos favoritos (la conjetura de Komlos, el teorema de la matriz "seis desviaciones estándar son suficientes", el Kadison-Singer constructivo, la determinación de la constante en la desigualdad de Grothendieck), y estoy un poco desconcertado de que cualquiera de ellos tenga mucho que ver con la ciencia de los datos, pero oye tal vez así es como se consigue que suficientes personas trabajen en algo para poder verlo resuelto.

42voto

stacker Puntos 193

Fundamentalmente, mucho de lo que hace un científico de datos moderno es muy similar a lo que en generaciones anteriores habría sido responsabilidad de un estadístico, y no debería sorprender que haya profesores de estadística. Matemáticamente hay bastantes cosas interesantes que surgen en gran parte de la ciencia de datos moderna, pero primero permítanme hacer una taxonomía no exhaustiva de las subáreas de la ciencia de datos, porque hay varias actividades diferentes que incluye la "ciencia de datos":

  • Recogida de datos: se trata en gran medida de una tarea no matemática en la que se recogen realmente los datos. Se pueden resolver problemas matemáticos novedosos en este ámbito si se realiza una inferencia, ya que la estructura de la recopilación afecta significativamente a los supuestos de independencia y muestreo de muchos métodos, y esa matemática se suele realizar en el contexto de las ciencias sociales o de la estadística más aplicada. Por ejemplo, "Inferencia causal sin comprobación del equilibrio" es un artículo sobre las matemáticas para tratar la recogida de datos no aleatorios en la inferencia, escrito por dos economistas y un politólogo. La mayor parte de este tipo de trabajos no son matemáticos, y pertenecen mucho más al ámbito de los informáticos y los científicos sociales.

  • Extracción, transformación y carga (ETL). Esto es en gran medida el dominio de los informáticos, especialmente cuando se entra en cuestiones de "big-data", a menudo se habla de ejecutar algoritmos masivamente paralelos en sistemas distribuidos. Hay algo de matemática en esto, aunque en gran medida no es matemática. Por ejemplo, en el ámbito del procesamiento del lenguaje natural, una parte clave de este paso podría ser el procesamiento de las palabras según una modelo temático El más común de ellos fue descrito en este documento . El modelo subyacente es profundamente matemático, ya que se trata de un modelo generativo baysiano, y el artículo muestra cómo este trabajo (aunque realizado fuera de un departamento de matemáticas) es una investigación matemática.

  • Inferencia: Este es el dominio de los estadísticos clásicos, y consiste en crear modelos y estimadores a partir de esos modelos para aprender algo sobre la población de la que se está tomando la muestra. En la práctica moderna de la ciencia de los datos hay mucha gente interesada en la inferencia, entre la que me incluyo, y que utiliza las herramientas clásicas de la estadística para conseguirlo. Curiosamente, hay una gran cantidad de temas en los que las herramientas clásicas de inferencia se han reaprovechado para nuevos contextos de predicción. Lo más interesante para la inferencia es que hay muchas matemáticas nuevas para tomar los nuevos modelos que estamos usando para la predicción y hacerlos utilizables para la inferencia. Por ejemplo "Consistencia de los bosques aleatorios" toma un caballo de batalla de la ciencia de los datos e intenta comprender sus propiedades matemáticas y avanzar hacia un lugar en el que el modelo de predicción pueda utilizarse para la inferencia. Además, hay muchos trabajos matemáticos sobre los modelos utilizados por los científicos de datos que se preguntan cuándo y cómo pueden utilizarse para una tarea inferencial. El ejemplo clásico es modelos gráficos donde la de Judea Pearl libro profundiza precisamente en esta cuestión.

  • Predicción: Esto es a lo que la mayoría de los científicos de datos de la industria dedican la mayor parte de su tiempo de trabajo. La predicción se suele plantear de forma totalmente empírica, lo que significa que apenas se recurre a las matemáticas y, en cambio, se basa en gran medida en la simulación o las pruebas con datos reales. Sin embargo, en este caso sí hay matemáticas, tanto en el establecimiento de los fundamentos como en el hecho de que la predicción puede ser fácilmente reencuadrada como aproximación, un tema clásico en el análisis. De hecho, existe un teorema fundamental en el aprendizaje automático llamado Teorema de aproximación universal que es en esencia demostrar un hecho sobre la densidad y el casco convexo de un subespacio de $L_2$ .

Una vez aclarada la base de lo que es la ciencia de los datos, se exponen algunas cuestiones matemáticas más específicas:

  • Optimización no convexa Una de las tareas más comunes en el aprendizaje automático es optimizar sobre alguna función no convexa . Una de las cosas que los científicos de datos desean comprender son las propiedades de estas optimizaciones no convexas, sobre todo porque se utilizan con frecuencia, pero aún no se comprenden matemáticamente. "Optimización no convexa para el aprendizaje automático" es una monografía que aborda exactamente este problema, y es muy accesible incluso para los no matemáticos.

  • Fundaciones : Sé que cuando los matemáticos pensamos en fundamentos solemos pensar en lo esotérico, pero en realidad en este contexto lo que quiero decir es que, debido a que la ciencia de los datos se ha desarrollado tan rápidamente como disciplina aplicada, a menudo se descubre que ciertos modelos y técnicas "funcionan" pero hay bastante misterio sobre el porqué. Para una buena introducción a este tipo de pensamiento se puede ver una charla como "Sobre la conexión entre las redes neuronales y los núcleos" o un libro como Fundamentos de la ciencia de los datos de Blum, Hopcraft y Kannon, que es un libro de texto para estudiantes universitarios (así que no es demasiado avanzado), pero si tienes más formación puedes ver fácilmente algunas de las cuestiones más profundas. Gran parte de la ciencia de los datos está profundamente arraigada en el análisis funcional, por lo que espero ver muchos trabajos procedentes de esa dirección en el futuro.

  • Modelado Generativo : Este es el problema de la aproximación de una distribución. Está claro que hay trabajos más tradicionales en el análisis sobre la interpolación y la aproximación funcional en espacios funcionales dados, y también hay trabajos en la teoría de la probabilidad sobre precisamente este problema. Además de estas dos tradiciones, la modelización generativa también se ocupa mucho de la estimación no paramétrica. Por ejemplo, el libro "Teoría sin distribución de la regresión no paramétrica" es una interesante visión matemática de muchos métodos utilizados clásicamente en la estadística no paramétrica y por la ciencia de los datos en el modelado generativo.

Esto es sólo una muestra de temas, por ejemplo, ni siquiera he tocado el aprendizaje por refuerzo, y creo que a medida que pase el tiempo el lenguaje y la literatura que rodea a la ciencia de los datos se convertirá en un sólido conjunto de literatura firmemente arraigada en el análisis y la teoría de la probabilidad (con salpicaduras de geometría y topología ).

0 votos

Además, si alguien trabaja en este tipo de cosas, me encantaría que me informara sobre su trabajo :)

0 votos

Hola, gracias por este excelente resumen, del que he aprendido bastante. Tengo una visión similar respecto a un mejor lenguaje en torno a la ciencia de los datos. Me interesan las conexiones entre la geometría de la información, el filtrado no lineal y el aprendizaje automático. No dude en ponerse en contacto conmigo si está interesado en aprender más.

34voto

Dean Hill Puntos 2006

Las matemáticas de los datos puede ayudar a responder a su pregunta. Como ejemplo de un tema matemáticamente interesante motivado por la ciencia de los datos, puede que quieras mirar el concepto de homología persistente .

0 votos

Si se me permite dividir los cabellos, ¿fue realmente "motivado por la ciencia de los datos"? Afra Zomorodian trabajaba en la homología persistente años antes de que la gente de relaciones públicas popularizara el término "ciencia de datos".

4 votos

@RodrigodeAzevedo : Tengo entendido que Zomorodian fue motivado por cuestiones computacionales en topología, que considero que caen bajo el paraguas de la "ciencia de datos". Puede ser anacrónico decir que la gente trabajaba en ciencia de datos antes de que el término "ciencia de datos" estuviera de moda, pero eso no me molesta mucho. Como analogía, me complace decir que la gente estudiaba "álgebra lineal" en el siglo XIX (y quizá incluso antes) aunque no utilizaran ese término en ese momento.

0 votos

Gracias por tomarse el tiempo de dar una respuesta tan detallada. Efectivamente, un campo puede existir antes de tener un nombre oficial. Mi argumento (de pelos de punta) era que Zomorodian podría haber considerado su trabajo como análisis de datos topológicos, no como ciencia de los datos. Aparentemente, "análisis" no era lo suficientemente autoritario. O, tal vez, la ciencia de los datos es un superconjunto del análisis de datos.

22voto

jt. Puntos 3116

Para empezar, existe una familia de resultados que a veces se denominan " No hay almuerzo gratis ". Cada uno de estos resultados, a su manera, afirma que cualquier algoritmo de optimización es tan bueno como cualquier otro si se promedia sobre el espacio de todos los problemas de optimización. Por otro lado, sabemos que en determinados ámbitos algunos algoritmos superan ampliamente a todos los demás (que conozcamos): para detectar objetos en imágenes, las redes neuronales convolucionales son lo más avanzado, y en lingüística computacional lo mejor que se puede hacer para la mayoría de las tareas es una red neuronal con una arquitectura LSTM o transformadora. En ambos casos, los algoritmos más avanzados funcionan mucho mejor que, por ejemplo, la regresión logística.

¿Cómo podemos conciliar los teoremas de "No hay almuerzo gratis" con nuestra experiencia empírica? La respuesta tiene que ser que la detección de objetos en imágenes y las tareas estándar de la PNL no son problemas de optimización "típicos": alguna combinación de los datos y la tarea tiene alguna estructura especial que determinadas arquitecturas neuronales son excepcionalmente buenas para detectar. ¿Cuál es esta estructura? ¿Por qué los algoritmos conocidos son tan buenos para aprenderla? ¿Podemos generar nuevos algoritmos (neuronales o de otro tipo) que sean aún mejores?

Todos estos problemas son esencialmente matemáticos y se sitúan en algún lugar de la intersección entre la teoría de la optimización y la teoría de la información. Son bastante abiertos -excepto en casos sencillos como la regresión logística- no hay mucha teoría que caracterice un algoritmo como óptimo para una tarea concreta entre el espacio de todos los algoritmos de optimización posibles. Un influyente papel de 2014 propone utilizar la teoría de grupos de renormalización de la física para abordar esta cuestión, y hay otros intentos que utilizan la teoría gauge o el principio de máxima entropía. Otra línea de ataque es la llamada "hipótesis del múltiple", que afirma que los conjuntos de datos del mundo real (presentados como un conjunto de puntos en el espacio euclidiano) tienden a agruparse cerca de un submúltiple de alta codimensión.


Esa es mi respuesta a su principal pregunta técnica, pero también haré una observación sobre la política académica. Hay muchas más ofertas de trabajo en ciencia de datos que personas para cubrirlas, hasta el punto de que muchas empresas (como AirBnB) han descubierto que es más barato y fácil poner en marcha programas internos de formación en ciencia de datos que contratar a gente de fuera. No es probable que este problema desaparezca a corto plazo, por lo que es sensato incentivar a las universidades para que inicien programas de grado en este campo, aunque todavía no sea una disciplina académica totalmente desarrollada. Esto tiene muchos precedentes históricos: por ejemplo, los programas académicos de ciencias forenses y matemáticas financieras surgieron de la misma manera en la década de 1990.

0 votos

Es un encuadre muy interesante.

1 votos

Una respuesta muy interesante, pero el primer párrafo parece difuminar la distinción entre un algoritmo de optimización y un algoritmo de clasificación. Una red neuronal convolucional no es un algoritmo de optimización, por ejemplo.

1 votos

@littleO ¡Claro que sí! Más bien, el entrenamiento de un algoritmo de clasificación lo es. Las redes neuronales profundas, incluidas las CNN, tienen un gran número de parámetros que especifican cómo se mueven los datos entre las neuronas, y el proceso de entrenamiento de una red neuronal corresponde a encontrar -normalmente mediante alguna forma de descenso de gradiente- una colección de parámetros que minimice una función objetivo. En el caso de los problemas de clasificación, la función objetivo se elige para castigar los errores de clasificación en los datos de entrenamiento: la entropía cruzada es una opción típica. La mayoría de los demás algoritmos de clasificación pueden considerarse de forma similar.

4voto

user29697 Puntos 79

Creo que el problema es que "la ciencia de los datos" significa muchas cosas diferentes para distintas personas. Para ti connota la aplicación de la estadística al marketing, pero para otros abarca grandes franjas de probabilidad, estadística, aprendizaje automático, incluso cosas como la geometría, etc.

Pero esto también puede ser una oportunidad. Si me meto un poco en la política de contratación y también interpreto tu pregunta como "¿por qué los profesores de ciencia de datos serían adiciones de principio a los departamentos de matemáticas?" ... bueno, si un departamento puede asegurar una línea de financiación para "ciencia de los datos", puede que no opte por contratar a una persona de marketing o publicidad, puede que opte por llenarla con un probabilista o algo así.

3 votos

Esto es demasiado optimista: es poco probable que un contratado en ciencia de datos sea o se llame a sí mismo probabilista. La primera página de búsqueda de google.com/ aparece un "probabilista aficionado", dos referencias a Leo Breiman, fallecido en 2005, y varios usos inapropiados de la palabra "probabilista".

0 votos

@MattF. Estoy de acuerdo en que conseguir un probabilista en particular para un puesto así es una exageración.

0 votos

@MattF Aunque puede que tengas razón, yo también oigo raramente la palabra "probabilista" y oigo mucho más "teórico de la probabilidad".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X