7 votos

Importancia vs. bondad de ajuste en regresión

Supongamos que estoy interesado en analizar el siguiente modelo de regresión lineal: $$ Y = \beta_0 +\beta_1 x_1 +\beta_2 x_2+e $$

Please explain the difference between testing the p-value for each coefficient $\beta_i$ por separado, y la realización de la bondad de ajuste de prueba para el modelo?

En particular:

  1. Es cierto que el valor de p para cada coeficiente corresponde a la hipótesis nula de que este coeficiente es realmente cero (por ejemplo, en MATLAB de la glmfit función)?

  2. Es posible que un modelo que resulta en un muy buen ajuste con alto p-valores de todos los coeficientes? Es posible que un modelo con bajos valores de p para todos los coeficientes serán el resultado de una mala adaptación?

4voto

Sean Hanley Puntos 2428
  1. , los p-valores que vienen con el estándar de la regresión de salida son las pruebas si el asociado beta (coeficiente de la pendiente) es $0$. (Es posible obtener los valores de p para las pruebas en contra de otros valores, pero usted tiene que saber cómo establecer que no es lo que el software hace por defecto, y realmente no es muy común.)
  2. , usted puede tener altos valores de p para los coeficientes individuales con un buen ajuste y bajos valores de p con un mal ajuste. La razón de esto es sencilla: de la bondad de ajuste es una cuestión diferente que si la pendiente de la $X,\ Y$ relación $0$ en la población. Generalmente, cuando se ejecuta una regresión, estamos tratando de determinar una cocina equipada línea que traza el condicional medios de $Y$ a diferentes valores de $X$. (También es posible preguntarse acerca de otros aspectos de un modelo, pero que es la más básica y común característica). Por lo tanto, una bondad de ajuste de evaluación es si el modelo está equipado condicional significa que en realidad coinciden con los datos del medio condicional. La respuesta a esta última pregunta puede ser o no , independientemente de si la mejor estimación de la pendiente es $0$.

    Considere los siguientes ejemplos, los cuales son codificados en R. (no tengo acceso a MATLAB, pero el código es la intención de ser lo más cercano a pseudocódigo como lo puedo hacer.)

    ##### high p-value, good fit
    set.seed(6462)                  # this makes the example exactly reproducible
    x1 = runif(100, min=-5, max=5)  # the x-variables are uniformly distributed
    x2 = runif(100, min=-5, max=5)  #  between -5 and 5
    e  = rnorm(100, mean=0, sd=1)   # these are the errors
    y  = 0 + 0*x1 + 0*x2 + e        # the true intercept & sloes are 0
    
    m1 = lm(y~x1+x2)
    summary(m1)
    # ...
    # Coefficients:
    #               Estimate Std. Error t value Pr(>|t|)
    # (Intercept) -0.1257881  0.0992355  -1.268    0.208     # these p-values are
    # x1           0.0009124  0.0307466   0.030    0.976     # high & non-significant
    # x2          -0.0243975  0.0316458  -0.771    0.443
    # 
    # Residual standard error: 0.9884 on 97 degrees of freedom
    # Multiple R-squared:  0.006149,  Adjusted R-squared:  -0.01434 
    # F-statistic: 0.3001 on 2 and 97 DF,  p-value: 0.7415   # the whole model is ns
    

    enter image description here

    ##### low p-values, poor fit
    # the true intercept & sloes are not 0, but the relationships are curvilinear
    y2 = 5 + 0.65*x1 + -0.17*x1^2 + 0.65*x2 + -0.17*x2^2 + e  
    
    m2 = lm(y2~x1+x2)
    summary(m2)
    # ...
    # Coefficients:
    #             Estimate Std. Error t value Pr(>|t|)    
    # (Intercept)  1.42633    0.21650   6.588 2.31e-09 ***  # very low p-values
    # x1           0.64189    0.06708   9.569 1.14e-15 ***
    # x2           0.58869    0.06904   8.527 2.01e-13 ***
    # ...
    # 
    # Residual standard error: 2.156 on 97 degrees of freedom
    # Multiple R-squared:  0.6152,  Adjusted R-squared:  0.6073 
    # F-statistic: 77.54 on 2 and 97 DF,  p-value: < 2.2e-16
    

    enter image description here

    Lo que muestran estos ejemplos son un modelo que tiene un alto o no significativos los valores de p, pero un buen ajuste para la predicción de los medios (porque el verdadero pendientes son de $0$), y un modelo con muy baja / muy significativos los valores de p, pero un mal ajuste de la predicción de los medios (porque, aunque las pistas dentro de las regiones se extendió por los datos están lejos de $0$, que no son también muy cerca de las líneas rectas). Los valores de p son fáciles de ver y de entender en la salida. Para ver la calidad de los modelos se ajusta a los medios condicionales, he trazado la verdadera generadora de datos de proceso (en este caso la tengo, porque los datos son simulados, pero en general no). En un caso más típico, sólo tendría que ver si la predicción significa hacer un buen trabajo de seguimiento de la observó condicional significa que en el conjunto de datos; aquí lo hice por el trazado de LOWESS líneas. (Las parcelas sólo se mostrará x1, y el colapso de más de x2, pero podría hacer de forma análoga parcelas con x2, o diversos tipos de lujo parcelas con tanto x1 y x2, y muestran la misma cosa.)

1voto

AMH Puntos 16

Para añadir a la respuesta de @gung vamos a suponer que un modelo más simple de $$ Y=\beta_0 + \beta_1 X + e $$ donde estamos estimando $Y$ utilizando $$ \hat Y=\hat \beta_0 + \hat \beta_1 X. $$ tenemos $n$ puntos de datos $x_i$ e $y_i$, $i=1,...,n$.

p-valores de los coeficientes se calculan como: $$ PV_i = Pr(t>t_i ) $$ donde $$ t_i=\frac{|\hat \beta_i|}{SE(\beta_i)}, $$ $Pr$ es la probabilidad de que $t$ (con distribución t con $n-2$ grados de libertad) es mayor que $t_i$ e $SE$ es el error estándar.

Mayor $t_i$ conduce a menor p-valor y de mayor significación de los coeficientes.

$$ SE(\beta_1)= \frac{\sigma_e}{\sqrt{n} \sigma_X} $$ y así $$ t_1= \sqrt{n} \hat \beta_1 \frac{\sigma_X}{\sigma_e}. \tag 1 $$ por otro lado ajustado R-cuadrado se obtiene como: $$ R^2=1- \frac{1}{ \beta^2_1 \frac{\sigma^2_X}{\sigma^2_e} +1} \tag 2 $$

De acuerdo a (1) los valores de p puede hacerse arbitrariamente pequeña por el aumento de $n$. Al mismo tiempo R-cuadrado puede ser menor por la disminución de la señal a la proporción de error de $\frac{\sigma^2_X}{\sigma^2_e}$, ya sea debido a la modelización (error de descuidar términos importantes) o simplemente error aleatorio. Por lo tanto, usted puede tener un mal ajuste y al mismo tiempo tienen bajos valores de p para todos sus coeficientes.

Las siguientes combinaciones son posibles:

  1. El ajuste es bueno-malo $R^2$-de alta o baja de valor-p: Esto es posible si el modelo elegido correctamente, pero la señal a la proporción de error de $\frac{\sigma^2_X}{\sigma^2_e}$ es bajo. Valor de P $PV_1$ puede hacerse arbitrariamente grande o pequeño cambiando $n$ si $\hat \beta_1 \neq 0$.

  2. Mal ajuste-bien $R^2$-de alta o baja de valor-p: Esto es posible si el modelo es elegido erróneamente, sino $\beta^2_1 \sigma^2_X$ es muy grande. De nuevo P-valor puede hacerse arbitrariamente grande o pequeño cambiando $n$.

  3. Obvio casos son mal ajuste-bad $R^2$ y buen ajuste-bien $R^2$.

Para escribir esta respuesta, he utilizado las fórmulas que figuran en este pdf.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X