19 votos

Cómo realizar análisis exploratorios de datos para elegir el algoritmo de aprendizaje automático adecuado

Estamos estudiando el aprendizaje automático mediante Machine Learning: A Probabilistic Perspective (Kevin Murphy). Aunque el texto explica el fundamento teórico de cada algoritmo, rara vez dice en qué caso es mejor qué algoritmo, y cuando lo hace, no dice cómo saber en qué caso estoy.

Por ejemplo, para la elección del kernel, me han dicho que haga un análisis exploratorio de datos para calibrar lo complejos que son mis datos. En datos simples de 2 dimensiones, puedo trazar y ver si un kernel lineal o radial es apropiado. Pero, ¿qué hacer en dimensiones superiores?

En términos más generales, ¿a qué se refiere la gente cuando dice "conoce tus datos" antes de elegir un algoritmo? Ahora mismo sólo puedo distinguir algoritmo de clasificación frente a algoritmo de regresión, y algoritmo lineal frente a algoritmo no lineal (que no puedo comprobar).

EDIT: Aunque mi pregunta original es sobre la regla general universal, me han pedido que proporcione más información sobre mi problema en particular.

Datos: Un panel en el que cada fila es un país-mes (~30.000 filas en total, que cubren ~165 países a lo largo de ~15 años).

Respuesta: 5 variables binarias de interés (es decir, si en ese mes se producen protestas / golpes de Estado / crisis, etc.).

Características: ~ 400 variables (una mezcla de continuas, categóricas, binarias) detallando un montón de características de los 2 meses-país anteriores (se pueden crear lag más largos). Sólo utilizamos variables retardadas, ya que el objetivo es la predicción.

Por ejemplo, el tipo de cambio, el crecimiento del PIB (continuo), el nivel de libertad de prensa (categórico), la democracia, si el vecino tiene conflictos (binario). Tenga en cuenta que muchas de estas 400 características son variables retardadas.

19voto

Christian Hagelid Puntos 121

Se trata de una pregunta amplia sin una respuesta sencilla. En la CMU impartí un curso sobre este tema. Se trataron temas como:

  1. Utilizando proyecciones para comprender la correlación entre las variables y la estructura distributiva general.
  2. Cómo acumular un modelo de regresión mediante la modelización sucesiva de los residuos.
  3. Determinación de cuándo añadir términos de interacción no lineales a un modelo lineal.
  4. Cómo decida entre knn vs. un árbol de decisión vs. un clasificador logístico. Revisé varios conjuntos de datos de la UCI y mostré cómo se podía saber qué clasificador ganaría antes de ejecutarlos.

Lamentablemente, no hay vídeo ni libro de texto para el curso, pero di un hable que resuma los puntos principales de la clase. No conozco ningún libro de texto que trate el mismo tema.

0voto

Donbeo Puntos 760

Hay algunas cosas que puedes comprobar en tus datos.

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

En función de estos puntos y del tipo de información que quieras extraer de tus datos puedes decidir qué algoritmo utilizar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X