7 votos

¿Cómo utilizo una matriz de correlación en Big Data?

Soy bastante nuevo en Big Data y he estado leyendo el libro "Applied Predictive Modeling" de Max Kuhn, Kjell Johnson. Estoy tratando de entender cómo usar la matriz de correlación en el contexto de Big Data.

Este es un ejemplo de una matriz de correlación que se puede generar en R:

https://cran.r-project.org/web/packages/corrplot/vignettes/corrplot-intro.html

enter image description here

En los grandes datos, los conjuntos de datos son enormes, con cientos de variables de predicción, así que esperen que este cuadrado también sea enorme.

Entiendo que para prevenir la multicolinealidad, no se debe tomar un extremo azul o el extremo rojo del par de variables predictoras ya que están correlacionadas y esto podría afectar los resultados que salen de su modelo predictivo. En su lugar, deberías elegir pares de variables con baja correlación, como qsec y drat con una correlación de 0,09.

Sin embargo, ¿es incluso la generación de esta matriz relevante en el contexto de los grandes datos según entiendo, la mayoría de los modelos predictivos tienen la selección de características en su lugar por lo que los valores correlacionados deben ser filtrados por el modelo predictivo que ya nos salva de hacerlo manualmente?

Puedo ver la relevancia de la matriz de correlación para un modelo de regresión lineal pequeño si se quiere ver si algo está correlacionado o no, así que se toma una decisión sobre si se saca la variable del modelo o no, pero parece que no puedo entender la relevancia de esta matriz en el contexto de Big Data.

0 votos

La correlación suele ser para EDA. Cuando se llega a la modelización se debe tener una idea de qué variables serán útiles. No intentarías ajustar un modelo con una variable irrelevante y no correlacionada.

0 votos

Las herramientas son herramientas. Algunas se adaptan a situaciones específicas mejor que otras, pero no se deje distraer por palabras como "big data". Es sobre todo una hipérbole.

1voto

Doc Yall Puntos 41

La sensibilidad de su modelo a los valores altamente correlacionados dependerá de la selección del modelo. Los modelos de bosque aleatorio manejan bastante bien las variables correlacionadas, pero eso no significa que se beneficie realmente de tenerlas ahí.

Un modelo de bosque aleatorio puede elegir cualquiera de las variables correlacionadas como predictor sin una preferencia sustancial de una sobre la otra. Una vez que se utiliza una, la importancia de las otras variables correlacionadas disminuye. Esto podría afectar a su interpretación de los datos más adelante si no es consciente de las otras correlaciones. Podría suponer incorrectamente que una de las variables correlacionadas es más importante que la otra para el modelo.

La matriz de correlación es útil para el análisis exploratorio de datos. Una vez que decida qué tipo de modelo quiere construir, puede decidir si filtrar las variables altamente correlacionadas es apropiado para la situación. El paquete caret en R tiene herramientas agradables y sencillas para el preprocesamiento de datos.

0 votos

Creo que has dicho muy bien que es con fines EDA para poder decidir qué modelo funcionaría mejor con los datos. Supongo que se observaría la matriz y se tomaría una decisión sobre si el conjunto de datos está altamente correlacionado o no. En el diagrama de la matriz de ejemplo que planteé en mi pregunta, supondría que está altamente correlacionado, dadas las pocas apariciones de números ligeramente coloreados y las mayores apariciones de azules y rojos de color oscuro.

0 votos

Ciertamente hay mucha correlación, pero dependiendo de los datos, eso ocurre mucho. Yo trabajo mucho con datos de formas, así que tiene sentido que muchas características estén correlacionadas (área, perímetro, longitud del eje mayor, etc.). En general, utilizo un umbral de 0,85 (valor abs.) para filtrar mis variables. Pero, como ocurre con todos los umbrales, es algo arbitrario.

0voto

Nir Puntos 141

Cuando se tienen muchos predictores posibles, algunos muy correlacionados, una posibilidad es combinarlos en un número menor de componentes independientes utilizando PCA, ICA o métodos similares.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X