Soy bastante nuevo en Big Data y he estado leyendo el libro "Applied Predictive Modeling" de Max Kuhn, Kjell Johnson. Estoy tratando de entender cómo usar la matriz de correlación en el contexto de Big Data.
Este es un ejemplo de una matriz de correlación que se puede generar en R:
https://cran.r-project.org/web/packages/corrplot/vignettes/corrplot-intro.html
En los grandes datos, los conjuntos de datos son enormes, con cientos de variables de predicción, así que esperen que este cuadrado también sea enorme.
Entiendo que para prevenir la multicolinealidad, no se debe tomar un extremo azul o el extremo rojo del par de variables predictoras ya que están correlacionadas y esto podría afectar los resultados que salen de su modelo predictivo. En su lugar, deberías elegir pares de variables con baja correlación, como qsec
y drat
con una correlación de 0,09.
Sin embargo, ¿es incluso la generación de esta matriz relevante en el contexto de los grandes datos según entiendo, la mayoría de los modelos predictivos tienen la selección de características en su lugar por lo que los valores correlacionados deben ser filtrados por el modelo predictivo que ya nos salva de hacerlo manualmente?
Puedo ver la relevancia de la matriz de correlación para un modelo de regresión lineal pequeño si se quiere ver si algo está correlacionado o no, así que se toma una decisión sobre si se saca la variable del modelo o no, pero parece que no puedo entender la relevancia de esta matriz en el contexto de Big Data.
0 votos
La correlación suele ser para EDA. Cuando se llega a la modelización se debe tener una idea de qué variables serán útiles. No intentarías ajustar un modelo con una variable irrelevante y no correlacionada.
0 votos
Las herramientas son herramientas. Algunas se adaptan a situaciones específicas mejor que otras, pero no se deje distraer por palabras como "big data". Es sobre todo una hipérbole.