16 votos

¿Debería preocuparse uno por la multicolinealidad al usar modelos no lineales?

Imaginemos que tenemos un problema de clasificación binaria con características principalmente categóricas. Usamos algún modelo no lineal (por ejemplo, XGBoost o Random Forests) para aprenderlo.

  • ¿Debería uno preocuparse aún por la multicolinealidad? ¿Por qué?
  • Si la respuesta a lo anterior es afirmativa, ¿cómo se debería combatir considerando que se están utilizando estos tipos de modelos no lineales?

10voto

David Puntos 41

La multicolinealidad no será un problema para ciertos modelos. Como el bosque aleatorio o el árbol de decisión. Por ejemplo, si tenemos dos columnas idénticas, el árbol de decisión / bosque aleatorio eliminará automáticamente una columna en cada división. Y el modelo seguirá funcionando bien.

Además, la regularización es una forma de "solucionar" el problema de multicolinealidad. Mi respuesta Métodos de regularización para regresión logística brinda detalles.

8 votos

Creo que esto se mejoraría si te explayaras exactamente en cuál es el problema que se está "solucionando" con la regularización.

5voto

polfosol Puntos 131

Tarde para la fiesta, pero aquí está mi respuesta de todos modos, y es "Sí", siempre se debe estar preocupado por la colinealidad, independientemente de si el modelo/método es lineal o no, o si la tarea principal es predicción o clasificación.

Supongamos que hay un número de covariables/características linealmente correlacionadas presentes en el conjunto de datos y un método de Random Forest. Obviamente, la selección aleatoria por nodo puede elegir solo (o principalmente) características colineales que pueden resultar en una división deficiente, y esto puede ocurrir repetidamente, afectando negativamente el rendimiento.

Ahora, las características colineales pueden ser menos informativas sobre el resultado que las otras características (no colineales) y, como tal, deberían considerarse para ser eliminadas del conjunto de características de todos modos. Sin embargo, supongamos que las características están clasificadas como importantes en la lista de 'importancia de las características' producida por RF. Como tal, se mantendrían en el conjunto de datos innecesariamente aumentando la dimensionalidad. Entonces, en la práctica, siempre, como paso exploratorio (de muchos relacionados), revisaría la asociación par a par de las características, incluida la correlación lineal.

2 votos

Creo que hay casos en los que la multicolinealidad puede ser ignorada de forma segura, algunos de esos casos se discuten aquí: statisticalhorizons.com/multicollinearity

0voto

Denis Warburton Puntos 11
  1. ¿Debería uno seguir preocupándose por la multicolinealidad? ¿Por qué?

Si el modelo no lineal es un modelo basado en árboles, entonces no deberías considerarlo serio. Diferentes modelos de árboles tendrán diferentes métodos de tratamiento, como por ejemplo, el bosque aleatorio mantendrá ambos (porque construyen el árbol de manera independiente y seleccionan aleatoriamente la característica para cada árbol), pero no afectará al rendimiento de la predicción, incluso si eliminas el redundante. Pero para xgboost, elegirá cualquiera de ellos y lo usará hasta el último árbol construido.

  1. Si la respuesta a lo anterior es verdadera, ¿cómo debería uno luchar contra esto considerando que está utilizando estos tipos de modelos no lineales?

Solo se trata del significado de la interpretación, por lo que se sugiere eliminar la variable altamente correlacionada.

-4voto

mat_geek Puntos 1367

La multicolinealidad siempre es un problema posible. Las variables que son predictores en el modelo afectarán la predicción cuando estén linealmente relacionadas (es decir, cuando la colinealidad esté presente).

1 votos

Gracias, si (1) el enfoque es el rendimiento de predicción (y no la interpretabilidad) y (2) el modelo es no lineal, ¿te importaría profundizar en por qué esto aún puede ser un problema? (¿y cómo exactamente se manifestaría?)

0 votos

Estas variables que son predictores en el modelo afectarán la predicción cuando estén relacionadas linealmente (es decir, cuando exista colinealidad).

1 votos

¿Cómo afecta la predicción, exactamente? A propósito, stats.stackexchange.com/a/138082/99274, añade algunos enlaces en tu respuesta o te enfrentarás a la ira de la multitud de "he estado ahí, hecho eso".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X