Muchos trabajos estadísticos piden experiencia con datos a gran escala. ¿Cuáles son los tipos de habilidades estadísticas y computacionales que se necesitarían para trabajar con grandes conjuntos de datos? Por ejemplo, ¿qué hay de la creación de modelos de regresión dado un conjunto de datos con 10 millones de muestras?
Respuestas
¿Demasiados anuncios?
Carl Russmann
Puntos
1560
highBandWidth
Puntos
977
<ol>
<li>Enmarcar el problema en el marco <a href="http://en.wikipedia.org/wiki/MapReduce" rel="nofollow">de reducción de mapas.</a></li>
<li>El lado de la <em>ingeniería</em> del problema, por ejemplo,, ¿cuánto duele usar una precisión más baja para los parámetros, o la selección de modelos basada no solo en la generalización, sino también en los costos de almacenamiento y computación?</li>
</ol>
Steve Scheffler
Puntos
1166
También añadiría que los datos a gran escala también introducen el problema de los posibles "datos incorrectos". No solo faltan datos, sino errores de datos y definiciones inconsistentes introducidas por cada pieza de un sistema que alguna vez tocó los datos. Por lo tanto, además de las habilidades estadísticas, debe convertirse en un limpiador de datos experto, a menos que alguien más lo esté haciendo por usted.
-Ralph Winters