Processing math: 100%

5 votos

Los límites prácticos a la colinealidad de los problemas?

Colineal variables independientes puede tener efectos indeseables sobre la interpretación de los coeficientes en un modelo lineal. De hecho, para los dos perfectamente correlacionados predictores, los coeficientes son no se determina únicamente, dejando un solo grado de libertad por el cual pueden variar.

Sin embargo, la adición de un poco de aleatoriedad da soluciones a los OLS ecuaciones que no están demasiado lejos de la asignación de la correlación de las variables independientes igualdad de peso.

Un ejemplo de ello. El siguiente (en python) código crea una simple relación lineal entre una variable independiente y una sola variable dependiente. Luego copia la variable independiente para generar una segunda variable independiente y agrega una pequeña cantidad de independientes de ruido gaussiano para ambos. Por lo tanto, la segunda variable es casi perfectamente correlacionadas con la primera variable. Cuando hacemos esto varias veces y la trama de la resultante de los coeficientes, que tienden a centrarse alrededor de 2.5 y 2.5:

import numpy as np
import matplotlib.pyplot as plt
import sklearn.linear_model

coefs = []                                # to hold the coefficient of all of the OLS fits
for i in range(1000):                     # run OLS a bunch to see what the coefficients do
    X = np.linspace(0,1,100)              # some independent variable
    y = 5*X + 4                           # some dependent variable
    X2 = X                                # a new independent variable that is correlated with the first
    XX = (                                
        np.stack((X,X2)).T +              # stack the independent variables
        np.random.normal(0,0.01,(100,2)   # add noise
    )
    lr = sklearn.linear_model.LinearRegression()
    lr.fit(XX,y)
    coefs.append(lr.coef_)                # get the coefficients of an OLS linear regression

coefs = np.array(coefs)
plt.scatter(coefs[:,0], coefs[:,1])
plt.show()

enter image description here

¿Por qué estoy relativamente poco probable que se de, digamos, un X1 coeficiente de -105 y un X2 coeficiente de 110? Aquellos añadir hasta 5, pero hay algo empujando los resultados hacia la 2.5, 2.5. ¿Qué es la intuición detrás de este fenómeno, y qué implicaciones prácticas tiene esto cuando se enfrentan con colineales variables independientes?

ACTUALIZACIÓN:

La alteración de la cantidad de ruido Gaussiano de tener una mucho más pequeña de la varianza (σ=0.00000001 frente a σ=0.01 en el ejemplo anterior):

enter image description here

Y σ=0.0000000000000001:

enter image description here

UPDATEUPDATE:

Interés en cómo la cantidad de ruido agregado juega a este fenómeno el que me animó a hacer el siguiente gráfico. Me encontré con el anterior experimento para diferentes cantidades de ruido agregado, de 21 a 260 en una escala exponencial. Entonces medí la ets de el coeficiente de X1 en el anterior experimento para cada uno de los ensayos. Los resultados se dan aquí (debe leer log2 en el eje x):

enter image description here

Sospecho que en muy muy pequeños valores de ruido añadido, hay problemas numéricos debido a los límites de la arquitectura de computadores. Contabilidad para que, parece que a partir de este gráfico de la distribución de MCO de los coeficientes de X1 y X2 converge a una distribución Gaussiana con media de 2.5 y sexual, 0.25 o así. Por lo tanto, esto parece como "¿por Qué no los coeficientes de (-105,110)?" todavía está abierta.

Zoom sobre el extraño comportamiento para valores muy pequeños:

enter image description here

Que parece que está haciendo un sano cosa. Eso no significa que no los errores de punto flotante, pero no está claro que eso es lo que está sucediendo.

4voto

user164061 Puntos 281

¿Por qué estoy relativamente poco probable que se de, digamos, un x_1 coeficiente de -105 y un x_2 coeficiente de 110? Aquellos añadir hasta 5, pero hay algo empujando los resultados hacia la 2.5, 2.5.

Combinaciones lineales de dos variables x1=x+ϵ1 e x2=x+ϵ2 pueden ser descritos como:

a+b2(x+ϵ1)+ab2(x+ϵ2)=ax+12a(ϵ1+ϵ2)+12b(ϵ1ϵ2)

  • El parámetro será aproximadamente igual al parámetro asociado con la variale x. En el caso de que se a=5.
  • El parámetro b va a estar relacionado con la varianza y la correlación de y=(ϵ1+ϵ2) e z=(ϵ1ϵ2) por: Var(ay+bz)=a2Var(y)+b2Var(z)+2abVar(y)Var(z)ρy,z note that y=(ϵ1+ϵ2) and z=(ϵ1ϵ2) are iid distribtued variables and ρy,z se distribuirán alrededor de cero.

    Principalmente que va a estar cerca de b=0

Así, en el caso de -105 y 110 desea obtener grandes contribuciones de los términos de error, que sólo se 'deshacerse' cuando hay una fuerte correlación en el ejemplo concreto de los términos de error.

Influencia de la σ

Puedo modelo, así como la influencia de la σ pero no me hago con el mismo patrón como usted. A continuación puede ver que con mayor varianza, la suma de los parámetros será menor de lo 5 (para disminuir el efecto de los términos de error) y que también la diferencia será menor a lo que se relaciona con el tamaño de la suma de los parámetros. Pero, no veo por qué los parámetros que se iba a ir de 0 a 5 como en su último gráfico.


influence of sigma

Esto es para mil repeticiones de los datos:

x1=x+ϵ1x2=x+ϵ2y=5x+4

donde x es un vector de tamaño n=100 variable de 0 a 1, ϵ1 e ϵ2 son aleatoria Gaussiana ruido.

Que es modelada como un modelo lineal que minimiza la suma de mínimo error cuadrático ϵ

y=ax1+bx2+ϵ

2voto

grifaton Puntos 1686

En la forma en que ha añadido ruido, podría escribir x=x+ϵ (donde ϵ es una distribución normal de la variable que representa el ruido). Además, y=5x+4+η, donde η es otro de ruido Gaussiano plazo.

Usted está tratando de adaptarse a una regresión de la forma Ax+Bx+C, y usted sabe que usted es montaje a la variable objetivo que se ha generado por y=5x+4+η, así :

Ax+B(x+ϵ)+C=5x+4+η

o

(A+B)x+C+Bϵ=5x+4+η

Esperemos que esto arroja alguna luz sobre lo que está sucediendo (junto con sus valores numéricos), aunque no formalmente muestran. Si ϵ es tan pequeña que Bϵ es también muy pequeña, casi cualquier combinación de (a,B) que satisface A+B=5 probablemente será un buen ajuste, y que uno es mejor es una pregunta de ruido. El gran ϵ , más Bϵ le, en general, que el LHS fluctuar wrt a la RHS y el más B se pondrá a cero ( trivial de la repetición del hecho de que x es verdaderamente la variable explicativa y B sólo está correlacionada, y como la reducción de dicha correlación, regresión encontrará que es más fácil aprender este)

Es menos claro para mí lo que pasa cuando ϵ e η son de tamaños similares. En general, habrá efectos de la competencia donde usted podría ser capaz de hacer coincidir los datos mejor con los no-cero B. ¿Qué sucede si usted simular un mayor conjunto de datos? ¿El efecto todavía?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X