82 votos

Habilidades difíciles de encontrar en la máquina de los alumnos?

Parece que la minería de datos y aprendizaje automático se hizo tan popular que ahora casi todos los CS estudiante sabe acerca de los clasificadores de la agrupación, la estadística de la PNL, etc ... Así que parece que la búsqueda de los mineros de datos no es una cosa difícil hoy en día.

Mi pregunta es: ¿Cuáles son las habilidades que un minero de los datos podría aprender que lo hace diferente de los demás? Para hacer de él un no-tan-fácil-a-encontrar-alguien-como-él tipo de persona.

69voto

iliasfl Puntos 1440

He visto varias veces a los desarrolladores utilizar ML técnicas. Este es el patrón habitual:

  1. la biblioteca de la descarga con el nombre de fantasía;
  2. pasan 10 minutos de lectura de cómo usarlo (omitiendo cualquier estadística, matemáticas, etc);
  3. alimentar con datos (sin preprocesamiento);
  4. medir el rendimiento (por ejemplo, precisión, incluso si las clases son totalmente desequilibrado) y decirle a todo el mundo lo maravilloso que es con su 99% de precisión;
  5. implementar en producción con epic fail resultados;
  6. encontrar a alguien que entienda lo que está pasando para ayudarles a salir porque el manual de instrucciones no tiene ningún sentido en absoluto.

La respuesta simple es que (la mayoría) de los ingenieros de software son muy débiles en las estadísticas y las matemáticas. Esta es la ventaja de que cualquier persona que quiera competir con ellos. Por supuesto, las estadísticas de personas que están fuera de su zona de confort si se necesita escribir el código de producción. El tipo de papel que se convierten en realmente raro es que de los Datos Científicos. Es alguien que puede escribir código para acceder y jugar con la enorme cantidad de datos y encontrar el valor en ellos.

67voto

Assad Ebrahim Puntos 939

De qué se trata

Sólo saber acerca de las técnicas es similar a la de conocer a los animales en un zoológico -- puede que los nombre, describir sus propiedades, tal vez de identificar en la naturaleza.

La comprensión de cuándo utilizarlos, la formulación, construcción, pruebas y despliegue de trabajo de modelos matemáticos dentro de un área de aplicación y evitando los escollos --- estas son las habilidades que distinguen, en mi opinión.

El énfasis debe ser en la ciencia, la aplicación de una sistemática, científica, empresarial, industrial, comercial y de problemas. Pero esto requiere de habilidades más amplio de la minería de datos y aprendizaje automático, como Robin Bloor argumenta persuasivamente en "Una Ciencia de Datos Despotricar".

Entonces, ¿qué se puede hacer?

Áreas de aplicación: aprender acerca de las diversas áreas de aplicación cerca de su interés, o el de su empresa. La zona es a menudo menos importante que la comprensión de cómo el modelo fue construido y cómo se utiliza para agregar valor a la zona. Los modelos que tienen éxito en un área a menudo puede ser trasplantado y se aplica a diferentes áreas que funcionan de manera similar.

Competencias: tratar de minería de datos en sitio del concurso Kaggle, preferiblemente unirse a un equipo de otros. (Kaggle: una plataforma para el modelado predictivo de las competiciones. Las empresas, los gobiernos y los investigadores presentan los conjuntos de datos y los problemas y el mundo mejores datos científicos compiten para producir las mejores soluciones.)

Fundamentos: Hay cuatro: (1) sólidos conocimientos en estadística, (2) razonablemente buenas habilidades de programación, (3) la comprensión de cómo estructurar consultas de datos complejos, (4) la construcción de modelos de datos. Si son débiles, entonces es un importante lugar para empezar.


Algunas citas al respecto:

`Aprendí muy temprano a la diferencia entre saber el nombre de algo y saber algo. Se puede saber el nombre de un pájaro en todos los idiomas del mundo, pero cuando haya terminado, usted sabe absolutamente nada sobre el pájaro... Así que echemos un vistazo a las aves y ver lo que está haciendo ... eso es lo que cuenta." -- Richard Feynman, "La realización de un Científico", p14 en Qué Te importa Lo que Piense la Gente, 1988

Tenga en cuenta:

`La combinación de habilidades que se requieren para llevar a cabo estas ciencias empresariales [en ciencia de datos] los proyectos rara vez reside en una sola persona. Alguien podría, de hecho, han alcanzado un amplio conocimiento en el triple de las áreas de (i) lo que la empresa hace, (ii) cómo estadísticas de uso, y (iii) cómo gestionar los datos y flujos de datos. Si es así, él o ella podría, de hecho, pretende ser un negocio científico (un.k.un., "científico de datos") en un determinado sector. Pero estas personas son casi tan rara como la de la gallina de los dientes." -- Robin Bloor, Una Ciencia De Datos Despotricar, Agosto De 2013, En El Interior De Análisis

Y por último:

`El Mapa No es el Territorio". -- Alfred Korzybski, De 1933, La Ciencia Y La Cordura.

Más real, los problemas aplicados no son accesibles únicamente de `el mapa". Para hacer cosas prácticas con modelos matemáticos, uno debe estar dispuesto a recibir sucias con los detalles, matices y excepciones. Nada puede sustituir a conocer el territorio de primera mano.


51voto

dan90266 Puntos 609

Estoy de acuerdo con todo lo que se ha dicho. Lo que se destaca para mí son:

  1. Cuán pocos de aprendizaje de máquina "expertos" están realmente interesados en la materia a la que se desea aplicar ML
  2. Cuán pocos realmente entienden la precisión predictiva y la adecuada reglas de puntuación
  3. Cómo unos a entender los principios de validación
  4. Cómo pocos saben cuándo utilizar una caja negra frente a un tradicional modelo de regresión
  5. Cómo ninguno de los "expertos" parece que nunca han estudiado Bayes decisión óptima o pérdida/utilidad/costo de las funciones de [esta falta de comprensión se muestra casi cada vez que alguien utiliza la clasificación en lugar de riesgo pronosticado]

12voto

Marvin Puntos 732

Aquí hay un par de cosas que te hacen destacar entre la multitud:

  • Entender la aplicación de dominio o dominios. Es decir, el entorno empresarial o de otro contexto.
  • Entender el panorama general. Esto es muy importante! Las personas que estudian el aprendizaje de la máquina a menudo se pierden en los detalles. Pensar acerca de la idea general de que su ML modelos encajan. A menudo la parte ML es sólo un pequeño segmento de un gran sistema. Comprender todo el sistema.
  • Estudio de la utilidad y la teoría de la decisión y la inferencia Bayesiana, no sólo en lo que ahora se considera "la costumbre" ML modelos. La inferencia bayesiana es sólo una manera de formalizar la noción de llevar a todos la información contextual que soportar en un problema. La utilidad y la teoría de la decisión se trata de llevar los valores en la imagen.

El mensaje general que se aplica a todos los tres puntos: a ver todo el panorama, no perderse en los detalles.

5voto

Jason Moore Puntos 31

La habilidad que se establece un minero de los datos, aparte de los demás es la capacidad de interpretar los modelos de aprendizaje automático. La mayoría de construir una máquina, un informe del error y luego se detiene. ¿Cuáles son las relaciones matemáticas entre las características? Son los efectos aditivos o no de aditivos o de ambos? Son alguna de las características irrelevantes? Es la máquina esperado bajo la hipótesis nula de que no hay oportunidad única de patrones en los datos? ¿El modelo de generalizar para datos independientes? ¿Qué hacen estos patrones significan para el problema en estudio? ¿Cuáles son las conclusiones? ¿Cuáles son las perspectivas? ¿Por qué debería un experto de dominio de emocionarse? La máquina de plomo para el experto de dominio de formular nuevas preguntas y el diseño de nuevos experimentos? Puede el minero de los datos de comunicarse de manera efectiva el modelo y sus implicaciones para el mundo?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X