¿Por qué es tan malo para los modelos de aprendizaje de máquina multicolinealidad?
¿Hay un tiempo cuando podemos pasar por alto multicolinealidad?
¿Cómo funciona la regularización ($L_1$, $L_2$) nos ayuda a lidiar con multicolinealidad?
¿Por qué es tan malo para los modelos de aprendizaje de máquina multicolinealidad?
¿Hay un tiempo cuando podemos pasar por alto multicolinealidad?
¿Cómo funciona la regularización ($L_1$, $L_2$) nos ayuda a lidiar con multicolinealidad?
La multicolinealidad simplemente imlies que una o más de las características del conjunto de datos son inútiles para el modelo. Así obtendrá todos los problemas asociados con más funciones (es decir, la maldición de la dimensionalidad), pero ninguno de los beneficios (por ejemplo, hacer las clases más fácil separables).
Muchos ML algoritmos son impermeables a los problemas de esta naturaleza. Los algoritmos que internamente realizar cualquier forma de selección de características y son buenos, con unas dimensiones de datos (por ejemplo, árbol de algoritmos basados en el lazo) son robustos en contra de la multicolinealidad.
$L_1$ regularización ayudan principalmente a los modelos, ya que proporciona escasa soluciones, robusto frente a la multicolinealidad. $L_2$ no ayuda mucho. Lea este artículo si usted está interesado en las diferencias de las dos.
Como nota final, la multicolinealidad no es un gran problema en el Aprendizaje de Máquina como hacer para ser. Dicho esto, si se detecta un problema casi siempre es beneficiosa para realizar algún tipo de selección de características, o incluso de la PCA para ayudar a decorrelate las características.
La manera más fácil de entender es imaginar que usted tiene dos características idénticas, por ejemplo, la temperatura en grados Celsius y Fehrenheits. Este es un caso de perfecta colinealidad.
Dos cosas va a suceder, tanto mal. Una de ellas es que al menos, vas a perder algunas neuronas. En la primera capa tiene $a^{[0]}_i$ entradas para $i=1,2,\dots,n$ características. Dos de estas características son esencialmente el mismo, pero el modelo no lo sabe y asigna los pesos $w_{ij}$:$z_j=\sum_ia^{[0]}_i w_{ij}$ donde $j=1,2,\dots,k^{[1]}$ de las neuronas en la primera capa. Así, se desperdicia $k^{[1]}$ de las neuronas a la derecha de la puerta.
La segunda cosa es que esto va a degenerar el potencial de la solución óptima. De nuevo, considere la primera capa de conexiones de la $a^{[0]}_1 w_{1j}+a^{[0]}_2 w_{2j}$, si la primera y la segunda entrada son colineales, entonces hay un número infinito de combinaciones que se iba a producir el mismo resultado exacto como esta sumproduct. Esto va a ser confuso de su optimizador, y hacer de su trabajo un poco más difícil.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.