8 votos

¿Es realmente necesario / útil el análisis exploratorio de datos (AED)?

Hay muchas guías que prevalecen en internet sobre EDA y cómo todo el mundo debería hacerlo y lo útil que es sin embargo rara vez lo veo en la práctica y muchas veces (en dichos tutoriales) se ciñe a cosas muy básicas.

  1. Dimensiones de los datos
  2. Trazado de distribuciones de características
  3. Correlación lineal entre características
  4. Datos que faltan (interpolación, eliminación, etc.)

No he visto a menudo (con mi limitado tamaño de muestra) que la gente haga esto en la práctica, especialmente en conjuntos de datos más grandes donde las características varían a cientos de miles, algunas de las técnicas EDA anteriores parecen más un obstáculo que una ayuda. ¿De verdad se espera que mire cientos de gráficos de distribuciones de características, por ejemplo?

No soy un científico de datos con formación previa y todavía estoy aprendiendo. Me gustaría añadir esta herramienta a mi caja de herramientas, pero aparte de ejemplos artificiosos en Internet, rara vez he encontrado con conjuntos de datos reales que tales técnicas sean útiles para empezar. Normalmente me encuentro en un círculo, en el que miro un poco mis datos, hago algunas suposiciones sobre lo que es útil y paso a modelarlo. Si / cuando algo no funciona, normalmente tengo una mejor idea de qué partes de los datos mirar, lo que me ahorra tiempo cuando se trata de grandes conjuntos de datos con cientos de características.

Si alguien puede recomendarme algún recurso donde pueda mejorar mis conocimientos de trabajo/aplicados en este ámbito también sería de agradecer. Me doy cuenta de que esta pregunta es más pregunta suave pero creo que es importante aclararlo. Espero que en su formato actual pueda verse como una pregunta a la que se puede dar una respuesta definitiva.

11voto

blank blankman Puntos 71

Vengo de una formación tradicional en bioestadística/epidemiología, y los EDA son definitivamente útiles, aunque no significa hacer histogramas/gráficos de correlación porque sí. Sin embargo, con la preeminencia del aprendizaje automático y la predicción, creo que se practica cada vez menos en la actualidad.

Si trabaja en el ámbito de la estadística médica o la epidemiología, normalmente se le presentan conjuntos de datos "rectangulares", es decir, conjuntos de datos en los que las filas corresponden a participantes individuales y las columnas son variables (características en términos de aprendizaje automático). Normalmente, sólo nos centramos en las variables relevantes para nuestras preguntas, que no suelen ser más de una docena. Por supuesto, es posible que tenga más. Por ejemplo, puede tener datos recogidos a lo largo del tiempo, biomarcadores o incluso datos genéticos. En estos casos, primero tendrá que averiguar cuáles son las mejores prácticas para tratar estos datos. A menudo, esto implicará algún tipo de reducción o resumen de dimensiones. Lo que enfáticamente no es introducirlo todo en un modelo de aprendizaje automático y ver qué predicciones genera. En otras palabras, hay un fuerte énfasis en comprender tu modelo.

Dado el énfasis en la comprensión del modelo, el AED es indispensable en la medida en que nos ayuda a identificar las razones de diversos comportamientos inesperados o sesgos en el ajuste de nuestro modelo. Por ejemplo, puede haber una variable que esperas que sea muy importante, y resulta que no lo era. Miras el histograma y ves que la gran mayoría eran 0. O, del mismo modo, puede haber patrones en los datos que faltan, y necesitas entenderlos y saber cómo pueden sesgar tus resultados.

En resumen, el EDA no es algo que se hace antes del análisis principal y se olvida. Es algo que se sigue haciendo junto con el análisis principal, para intentar comprender mejor el panorama.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X