De qué se trata
Sólo saber acerca de las técnicas es similar a la de conocer a los animales en un zoológico -- puede que los nombre, describir sus propiedades, tal vez de identificar en la naturaleza.
La comprensión de cuándo utilizarlos, la formulación, construcción, pruebas y despliegue de trabajo de modelos matemáticos dentro de un área de aplicación y evitando los escollos --- estas son las habilidades que distinguen, en mi opinión.
El énfasis debe ser en la ciencia, la aplicación de una sistemática, científica, empresarial, industrial, comercial y de problemas. Pero esto requiere de habilidades más amplio de la minería de datos y aprendizaje automático, como Robin Bloor argumenta persuasivamente en "Una Ciencia de Datos Despotricar".
Entonces, ¿qué se puede hacer?
Áreas de aplicación: aprender acerca de las diversas áreas de aplicación cerca de su interés, o el de su empresa. La zona es a menudo menos importante que la comprensión de cómo el modelo fue construido y cómo se utiliza para agregar valor a la zona. Los modelos que tienen éxito en un área a menudo puede ser trasplantado y se aplica a diferentes áreas que funcionan de manera similar.
Competencias: tratar de minería de datos en sitio del concurso Kaggle, preferiblemente unirse a un equipo de otros. (Kaggle: una plataforma para el modelado predictivo de las competiciones. Las empresas, los gobiernos y los investigadores presentan los conjuntos de datos y los problemas y el mundo mejores datos científicos compiten para producir las mejores soluciones.)
Fundamentos: Hay cuatro: (1) sólidos conocimientos en estadística, (2) razonablemente buenas habilidades de programación, (3) la comprensión de cómo estructurar consultas de datos complejos, (4) la construcción de modelos de datos. Si son débiles, entonces es un importante lugar para empezar.
Algunas citas al respecto:
`Aprendí muy temprano a la diferencia entre saber el nombre de algo y saber algo. Se puede saber el nombre de un pájaro en todos los idiomas del mundo, pero cuando haya terminado, usted sabe absolutamente nada sobre el pájaro... Así que echemos un vistazo a las aves y ver lo que está haciendo ... eso es lo que cuenta." -- Richard Feynman, "La realización de un Científico", p14 en Qué Te importa Lo que Piense la Gente, 1988
Tenga en cuenta:
`La combinación de habilidades que se requieren para llevar a cabo estas ciencias empresariales [en ciencia de datos] los proyectos rara vez reside en una sola persona. Alguien podría, de hecho, han alcanzado un amplio conocimiento en el triple de las áreas de (i) lo que la empresa hace, (ii) cómo estadísticas de uso, y (iii) cómo gestionar los datos y flujos de datos. Si es así, él o ella podría, de hecho, pretende ser un negocio científico (un.k.un., "científico de datos") en un determinado sector. Pero estas personas son casi tan rara como la de la gallina de los dientes." -- Robin Bloor, Una Ciencia De Datos Despotricar, Agosto De 2013, En El Interior De Análisis
Y por último:
`El Mapa No es el Territorio".
-- Alfred Korzybski, De 1933, La Ciencia Y La Cordura.
Más real, los problemas aplicados no son accesibles únicamente de `el mapa". Para hacer cosas prácticas con modelos matemáticos, uno debe estar dispuesto a recibir sucias con los detalles, matices y excepciones. Nada puede sustituir a conocer el territorio de primera mano.