Hay muchas guías que prevalecen en internet sobre EDA y cómo todo el mundo debería hacerlo y lo útil que es sin embargo rara vez lo veo en la práctica y muchas veces (en dichos tutoriales) se ciñe a cosas muy básicas.
- Dimensiones de los datos
- Trazado de distribuciones de características
- Correlación lineal entre características
- Datos que faltan (interpolación, eliminación, etc.)
No he visto a menudo (con mi limitado tamaño de muestra) que la gente haga esto en la práctica, especialmente en conjuntos de datos más grandes donde las características varían a cientos de miles, algunas de las técnicas EDA anteriores parecen más un obstáculo que una ayuda. ¿De verdad se espera que mire cientos de gráficos de distribuciones de características, por ejemplo?
No soy un científico de datos con formación previa y todavía estoy aprendiendo. Me gustaría añadir esta herramienta a mi caja de herramientas, pero aparte de ejemplos artificiosos en Internet, rara vez he encontrado con conjuntos de datos reales que tales técnicas sean útiles para empezar. Normalmente me encuentro en un círculo, en el que miro un poco mis datos, hago algunas suposiciones sobre lo que es útil y paso a modelarlo. Si / cuando algo no funciona, normalmente tengo una mejor idea de qué partes de los datos mirar, lo que me ahorra tiempo cuando se trata de grandes conjuntos de datos con cientos de características.
Si alguien puede recomendarme algún recurso donde pueda mejorar mis conocimientos de trabajo/aplicados en este ámbito también sería de agradecer. Me doy cuenta de que esta pregunta es más pregunta suave pero creo que es importante aclararlo. Espero que en su formato actual pueda verse como una pregunta a la que se puede dar una respuesta definitiva.