Processing math: 100%

83 votos

¿Cómo puede la adición de un segundo IV hacer que el primer IV sea significativo?

Tengo lo que probablemente sea una simple pregunta, pero me está desconcertando en este momento, así que espero que me puedan ayudar.

Tengo un modelo de regresión por mínimos cuadrados, con una variable independiente y una variable dependiente. La relación no es significativa. Ahora añado una segunda variable independiente. Ahora la relación entre la primera variable independiente y la variable dependiente se vuelve significativa.

¿Cómo funciona esto? Esto probablemente está demostrando algún problema con mi comprensión, pero para mí, pero no veo cómo la adición de esta segunda variable independiente puede hacer que la primera significativa.

5 votos

Este es un tema muy discutido en este sitio. Probablemente se deba a la colinealidad. Haga una búsqueda de "colinealidad" y encontrará docenas de hilos relevantes. Le sugiero que lea algunas de las respuestas a stats.stackexchange.com/questions/14500/

3 votos

Posible duplicado de los predictores significativos pasan a ser no significativos en la regresión logística múltiple . Hay muchos hilos de los que esto es efectivamente un duplicado -- este fue el más cercano que pude encontrar en menos de dos minutos

3 votos

Este es un problema algo opuesto al del hilo que acaba de encontrar @macro, pero las razones son muy similares.

100voto

jldugger Puntos 7490

Aunque la colinealidad (de las variables predictoras) es una posible explicación, me gustaría sugerir que no es una explicación esclarecedora porque sabemos que la colinealidad está relacionada con la "información común" entre los predictores, así que no hay nada misterioso o contraintuitivo en el efecto secundario de introducir un segundo predictor correlacionado en el modelo.

Consideremos entonces el caso de dos predictores que son realmente ortogonales no hay absolutamente ninguna colinealidad entre ellos. Aún así, puede producirse un cambio notable en la significación.

Designar las variables predictoras X1 et X2 y que Y nombrar el predictor. La regresión de Y contra X1 no será significativa cuando la variación en Y en torno a su media no se reduce sensiblemente cuando X1 se utiliza como variable independiente. Cuando esa variación está fuertemente asociada a una segunda variable X2 , Sin embargo, la situación cambia. Recordemos que la regresión múltiple de Y contra X1 et X2 equivale a

  1. Regresar por separado Y et X1 contra X2 .

  2. Retroceder el Y residuales contra el X1 residuos.

Los residuos del primer paso han eliminado el efecto de X2 . Cuando X2 está estrechamente correlacionada con Y Esto puede dejar al descubierto una cantidad relativamente pequeña de variación que anteriormente había quedado enmascarada. Si este La variación está asociada a X1 obtenemos un resultado significativo.


Todo esto podría aclararse con un ejemplo concreto. Para empezar, vamos a utilizar R para generar dos variables independientes ortogonales junto con algún error aleatorio independiente ε :

n <- 32
set.seed(182)
u <-matrix(rnorm(2*n), ncol=2)
u0 <- cbind(u[,1] - mean(u[,1]), u[,2] - mean(u[,2]))
x <- svd(u0)$u
eps <- rnorm(n)

(El svd asegura las dos columnas de la matriz x (representando X1 et X2 ) son ortogonales, descartando la colinealidad como posible explicación de cualquier resultado posterior).

A continuación, cree Y como una combinación lineal del X y el error. He ajustado los coeficientes para producir el comportamiento contraintuitivo:

y <-  x %*% c(0.05, 1) + eps * 0.01

Esta es una realización del modelo YiidN(0.05X1+1.00X2,0.012) con n=32 casos.

Mira las dos regresiones en cuestión. En primer lugar , retroceso Y contra X1 sólo:

> summary(lm(y ~ x[,1]))
...
             Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.002576   0.032423  -0.079    0.937
x[, 1]       0.068950   0.183410   0.376    0.710

El elevado valor p de 0,710 muestra que X1 es completamente no significativa.

Siguiente , retroceso Y contra X1 et X2 :

> summary(lm(y ~ x))
...
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -0.002576   0.001678  -1.535    0.136    
x1           0.068950   0.009490   7.265 5.32e-08 ***
x2           1.003276   0.009490 105.718  < 2e-16 ***

De repente, en presencia de X2 , X1 es fuertemente significativo, como indican los valores p casi nulos de ambas variables.

Podemos visualizar este comportamiento mediante una matriz de dispersión de las variables X1 , X2 y Y junto con el residuos utilizado en la caracterización de dos pasos de la regresión múltiple anterior. Como X1 et X2 son ortogonales, el X1 los residuos serán los mismos que X1 y, por lo tanto, no es necesario redibujarla. Incluiremos los residuos de Y contra X2 en la matriz de dispersión, dando lugar a esta figura:

lmy <- lm(y ~ x[,2])
d <- data.frame(X1=x[,1], X2=x[,2], Y=y, RY=residuals(lmy))
plot(d)

Aquí hay una representación de la misma (con un poco de embellecimiento):

SPM

Esta matriz de gráficos tiene cuatro filas y cuatro columnas, que contaré desde arriba y de izquierda a derecha.

Aviso:

  • El (X1,X2) El gráfico de dispersión de la segunda fila y la primera columna confirma la ortogonalidad de estos predictores: la línea de mínimos cuadrados es horizontal y la correlación es cero.

  • El (X1,Y) El diagrama de dispersión de la tercera fila y la primera columna muestra la relación leve, pero completamente insignificante, de la primera regresión de Y contra X1 . (El coeficiente de correlación, ρ , es sólo 0.07 ).

  • El (X2,Y) El gráfico de dispersión de la tercera fila y la segunda columna muestra la fuerte relación entre Y y la segunda variable independiente. (El coeficiente de correlación es 0.996 ).

  • La cuarta fila examina las relaciones entre los residuos de Y (con la regresión de X2 ) y otras variables:

    • La escala vertical muestra que los residuos son (relativamente) bastante pequeños: no podíamos verlos fácilmente en el gráfico de dispersión de Y contra X2 .

    • Los residuos son fuertemente correlacionada con X1 ( ρ=0.80 ). La regresión contra X2 ha desenmascarado este comportamiento antes oculto.

    • Por construcción, no hay correlación restante entre los residuos y X2 .

    • Hay poca correlación entre Y y estos residuos ( ρ=0.09 ). Esto muestra cómo los residuos pueden comportarse de forma totalmente diferente a Y sí mismo. Eso es cómo X1 puede revelarse repentinamente como un contribuyente significativo a la regresión.

Por último, cabe destacar que las dos estimaciones del X1 (ambos iguales a 0.06895 no está muy lejos del valor previsto de 0.05 ) estar de acuerdo sólo porque X1 et X2 son ortogonales. Excepto en los experimentos diseñados, es raro que la ortogonalidad se mantenga exactamente. Una desviación de la ortogonalidad suele hacer que cambien las estimaciones de los coeficientes.

0 votos

Por lo tanto, entiendo que X1 explica la variabilidad que X2 no lo hace. ¿Esto requiere que X2 ser (más) significativo que X1 ? O puede X1 se haga significativa sin importancia de X2 ?

1 votos

@Ronald, creo que las respuestas a tus preguntas son no y sí, respectivamente. Puedes averiguarlo modificando el ejemplo de esta respuesta: cambia los coeficientes (0,05 y 0,01) del modelo y el número de casos ( n=32 ) para ver qué pasa.

0 votos

@whuber gran respuesta, tienes alguna referencia para esta idea, algún libro de texto o artículo de revista que pueda leer más sobre este tema

26voto

Loren Pechtel Puntos 2212

Da la sensación de que la pregunta del PO puede interpretarse de dos maneras diferentes:

  1. Matemáticamente, ¿cómo funciona OLS, de forma que añadir una variable independiente puede cambiar los resultados de forma inesperada?

  2. ¿Cómo puede modificar mi modelo añadiendo una variable el efecto de otra variable independiente en el modelo?

Ya hay varias respuestas buenas para la pregunta nº 1. Y la pregunta 2 puede ser tan obvia para los expertos que asumen que el PO debe estar preguntando la pregunta 1 en su lugar. Pero creo que la pregunta nº 2 merece una respuesta, que sería algo así como

Empecemos con un ejemplo. Supongamos que tenemos la altura, la edad, el sexo, etc., de una serie de niños y queremos hacer una regresión para predecir su altura.

Se comienza con un modelo ingenuo que utiliza el género como variable independiente. Y no es estadísticamente significativo. (Cómo podría serlo, estás mezclando niños de 3 años y adolescentes).

Luego se añade la edad y, de repente, no sólo es significativa la edad, sino también el género. ¿Cómo puede ser eso?

Por supuesto, en mi ejemplo, se puede ver claramente que la edad es un factor importante en la altura de un niño/adolescente. Probablemente el factor más importante del que se tienen datos. El género también puede importar, especialmente en el caso de los niños mayores y los adultos, pero el género por sí solo es un mal modelo de la altura de un niño.

La edad más el sexo es un modelo razonable (aunque, por supuesto, simplificado) que es adecuado para la tarea. Si se añaden otros datos -interacción de la edad y el sexo, dieta, altura de los padres, etc.- se podría hacer un modelo aún mejor, que por supuesto seguiría siendo simplificado en comparación con la gran cantidad de factores que realmente determinan la altura de un niño, pero de nuevo todos los modelos son versiones simplificadas de la realidad. (Un mapa del mundo a escala 1:1 no es demasiado útil para un viajero).

Su modelo original (sólo de género) es demasiado simplificado, tanto que está esencialmente roto. Pero eso no significa que el género no sea útil en un modelo mejor.

EDIT: he añadido la sugerencia de gung sobre el término de interacción de la edad y el género.

1 votos

+1, nb, la edad y el género necesitarán presumiblemente un término de interacción también.

1 votos

+1 Es un gran ejemplo porque es muy simple e intuitivamente claro, y al mismo tiempo exactamente a la situación descrita con mucho más detalle pero sólo de forma abstracta por @whuber en su respuesta aceptada aquí.

24voto

Sean Hanley Puntos 2428

Creo que este tema se ha discutido antes en este sitio bastante a fondo, si sólo sabía dónde buscar. Así que probablemente añadiré un comentario más tarde con algunos enlaces a otras preguntas, o puede que edite esto para proporcionar una explicación más completa si no puedo encontrar ninguna.

Hay dos posibilidades básicas: La primera es que el otro IV puede absorber parte de la variabilidad residual y aumentar así la potencia de la prueba estadística del IV inicial. La segunda posibilidad es que tenga una variable supresora. Este es un tema muy poco intuitivo, pero puede encontrar algo de información aquí *, aquí o este excelente hilo sobre el CV .

* Tenga en cuenta que tiene que leer todo el camino hasta el final para llegar a la parte que explica las variables del supresor, usted podría simplemente saltar hasta allí, pero será mejor si lo lee todo.


Edición: como prometí, añado una explicación más completa de mi punto de vista sobre cómo el otro IV puede absorber parte de la variabilidad residual y, por tanto, aumentar la potencia de la prueba estadística del IV inicial. @whuber añadió un ejemplo impresionante, pero pensé que podría añadir un ejemplo complementario que explica este fenómeno de una manera diferente, que puede ayudar a algunas personas a entender el fenómeno más claramente. Además, demuestro que el segundo IV no tiene que estar más fuertemente asociado (aunque, en la práctica, casi siempre lo estará para que se produzca este fenómeno).

Las covariables de un modelo de regresión pueden probarse con t -dividiendo la estimación del parámetro por su error estándar, o se pueden probar con F -prueba mediante la partición de las sumas de los cuadrados. Cuando se utilizan SS de tipo III, estos dos métodos de prueba serán equivalentes (para saber más sobre los tipos de SS y las pruebas asociadas, puede ser útil leer mi respuesta aquí: Cómo interpretar el tipo I SS ). Para los que se inician en los métodos de regresión, el t -las pruebas suelen ser el centro de atención porque parecen más fáciles de entender para la gente. Sin embargo, este es un caso en el que creo que mirar la tabla de ANOVA es más útil. Recordemos la tabla básica de ANOVA para un modelo de regresión simple:

SourceSSdfMSFx1(ˆyiˉy)21SSx1dfx1MSx1MSresResidual(yiˆyi)2N(1+1)SSresdfresTotal(yiˉy)2N1

Aquí ˉy es la media de y , yi es el valor observado de y para la unidad (por ejemplo, el paciente) i , ˆyi es el valor predicho por el modelo para la unidad i y N es el número total de unidades en el estudio. Si tiene un modelo de regresión múltiple con dos covariables ortogonales, la tabla ANOVA podría construirse así:

SourceSSdfMSFx1(ˆyx1iˉx2ˉy)21SSx1dfx1MSx1MSresx2(ˆyˉx1x2iˉy)21SSx2dfx2MSx2MSresResidual(yiˆyi)2N(2+1)SSresdfresTotal(yiˉy)2N1

Aquí ˆyx1iˉx2 por ejemplo, es el valor previsto para la unidad i si su valor observado para x1 era su valor real observado, pero su valor observado para x2 fue la media de x2 . Por supuesto, es posible que ˉx2 es el valor observado de x2 para alguna observación, en cuyo caso no hay que hacer ningún ajuste, pero este no será el caso típico. Tenga en cuenta que este método para crear la tabla ANOVA sólo es válido si todas las variables son ortogonales; se trata de un caso muy simplificado creado con fines expositivos.

Si consideramos la situación en la que se utilizan los mismos datos para ajustar un modelo tanto con como sin x2 , entonces lo observado y valores y ˉy será el mismo. Por lo tanto, el total de SS debe ser el mismo en ambas tablas de ANOVA. Además, si x1 et x2 son ortogonales entre sí, entonces SSx1 será también idéntica en ambas tablas ANOVA. Entonces, ¿cómo es que puede haber sumas de cuadrados asociadas a x2 en la tabla? ¿De dónde proceden si el total de SS y SSx1 son los mismos? La respuesta es que provienen de SSres . El dfx2 también se toman de dfres .

Ahora el F -prueba de x1 es el MSx1 dividido por MSres en ambos casos. Dado que MSx1 es la misma, la diferencia en la significación de esta prueba proviene del cambio en MSres que ha cambiado en dos sentidos: Comenzó con menos SS, ya que algunas fueron asignadas a x2 pero estos se dividen por menos df, ya que algunos grados de libertad fueron asignados a x2 también. El cambio en el significado / poder del F -(y, de forma equivalente, el t -prueba, en este caso) se debe a cómo se compensan esos dos cambios. Si se dan más SS a x2 en relación con los df que se dan a x2 entonces el MSres disminuirá, haciendo que el F asociado a x1 para aumentar y p a ser más significativo.

El efecto de x2 no tiene que ser mayor que x1 para que esto ocurra, pero si no es así, entonces los cambios en p -serán bastante pequeños. La única manera de que acabe cambiando entre la no significación y la significación es si el p - los valores están ligeramente a ambos lados de alfa. Este es un ejemplo, codificado en R :

x1 = rep(1:3, times=15)
x2 = rep(1:3, each=15)
cor(x1, x2)     # [1] 0
set.seed(11628)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
model1  = lm(y~x1)
model12 = lm(y~x1+x2)

anova(model1)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  3.9568 0.05307 .
# Residuals 43 57.745  1.3429                  
#  ...
anova(model12)
#  ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  5.314  5.3136  4.2471 0.04555 *
# x2         1  5.198  5.1979  4.1546 0.04785 *
# Residuals 42 52.547  1.2511                  
#  ...

De hecho, x2 no tiene por qué ser significativa en absoluto. Considera:

set.seed(1201)
y       = 0 + 0.3*x1 + 0.3*x2 + rnorm(45, mean=0, sd=1)
anova(model1)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  3.8461 0.05636 .
# ...
anova(model12)
# ...
#           Df Sum Sq Mean Sq F value  Pr(>F)  
# x1         1  3.631  3.6310  4.0740 0.04996 *
# x2         1  3.162  3.1620  3.5478 0.06656 .
# ...

Hay que reconocer que no se parecen en nada al dramático ejemplo del post de @whuber, pero pueden ayudar a la gente a entender lo que está pasando aquí.

1 votos

(+1) para "En primer lugar, el otro IV puede absorber parte de la variabilidad residual y, por tanto, aumentar la potencia de la prueba estadística del IV inicial", de lo que @whuber dio un buen ejemplo

0 votos

(+1) Al principio das tres enlaces. El primero (externo) está lamentablemente roto (error 404). Aparte de eso: dices que hay "dos posibilidades básicas": el segundo IV añadido aumenta la potencia para probar el primer IV (y esta es exactamente la situación descrita por Whuber y por Wayne en sus respuestas) o hay una variable supresora (¿cuál, por cierto? ¿la primera o la segunda?). Mi pregunta: ¿son realmente dos situaciones distintas? ¿O se trata esencialmente de lo mismo, quizá visto de forma un poco diferente? Sería estupendo si pudieras ampliar la información.

15voto

zowens Puntos 1417

Este hilo tiene ya tres respuestas excelentes (+1 a cada una). Mi respuesta es un comentario extendido y una ilustración al punto planteado por @gung (que me llevó algún tiempo entender):

Hay dos posibilidades básicas: En primer lugar, el otro IV puede absorber parte de la variabilidad residual y aumentar así la potencia de la prueba estadística del IV inicial. La segunda posibilidad es que tenga una variable supresora.

Para mí, la forma conceptual más clara de pensar en la regresión múltiple es la geométrica. Consideremos dos IVs x1 et x2 y un DV y . Que se centren, para que no tengamos que preocuparnos por la interceptación. Entonces, si tenemos n puntos de datos en el conjunto de datos, las tres variables pueden imaginarse como vectores en Rn la longitud de cada vector corresponde a la varianza y el ángulo entre dos de ellos cualesquiera corresponde a la correlación. Es fundamental, realizar una regresión OLS múltiple no es otra cosa que proyectar variable dependiente y en el plano abarcado por x1 et x2 (siendo la "matriz del sombrero" simplemente un proyector). Los lectores que no estén familiarizados con este enfoque pueden consultar, por ejemplo, en Los elementos del aprendizaje estadístico , sección 3.2, o en muchos otros libros.

"Mejora"

La siguiente figura muestra las dos posibilidades enumeradas por @gung. Al principio, considere sólo la parte azul (es decir, ignore todas las líneas rojas):

Enhancement and suppression

Aquí x1 et x2 son predictores ortogonales que abarcan un plano (llamado "plano X "). Variable dependiente y se proyecta sobre este plano, y su proyección OD es lo que se suele llamar ˆy . A continuación, OD se descompone en OF (contribución de IV1) y OE (contribución de IV2). Obsérvese que OE es mucho más largo que OF.

Ahora imagina que no hay un segundo predictor x2 . Regresando a y en x1 resultaría en proyectarlo también sobre OF. Pero el ángulo AOC ( α ) está cerca de 90 una prueba estadística adecuada concluiría que casi no hay asociación entre y et x1 y que x1 no es, por tanto, significativo.

Cuando x2 se añade, la proyección OF no cambia (porque x1 et x2 son ortogonales). Sin embargo, para comprobar si x1 es significativo, ahora tenemos que ver lo que queda sin explicar después de x2 . El segundo predictor x2 explica una gran parte de y OE, y sólo una parte menor EC queda sin explicar. Para mayor claridad, he copiado este vector en el origen y lo he llamado OG: obsérvese que el ángulo GOF ( β ) es mucho menor que α . Puede ser fácilmente lo suficientemente pequeño como para que la prueba concluya que es "significativamente menor que 90 ", es decir, que x1 es ahora un predictor significativo.

Otra forma de decirlo es que la prueba compara ahora la longitud de la OF con la de la OG, y no con la de la OC como antes; la OF es diminuta e "insignificante" en comparación con la OC, pero lo suficientemente grande como para ser "significativa" en comparación con la OG.

Esto es exactamente la situación presentada por @whuber, @gung y @Wayne en sus respuestas. No sé si este efecto tiene un nombre estándar en la literatura de regresión, así que lo llamaré "potenciación".

Supresión

Obsérvese que en lo anterior, si α=90 entonces β=90 también; en otras palabras, la "mejora" sólo puede aumentar la potencia para detectar un predictor significativo, pero si el efecto de x1 solo era exactamente cero, seguirá siendo exactamente cero.

No así en la supresión.

Imaginemos que añadimos x3 a x1 (en lugar de x2 ) -- por favor, considere la parte roja del dibujo. El vector x3 se encuentra en el mismo plano X pero no es ortogonal a x1 (lo que significa que x3 está correlacionada con x1 ). Dado que el plano X es el mismo que antes, la proyección OD de y también se mantiene igual. Sin embargo, la descomposición de OD en contribuciones de ambos predictores cambia drásticamente: ahora OD se descompone en OF' y OE'.

Fíjate en que "OF" es mucho más largo que "OF". Una prueba estadística compararía la longitud de OF' con la de E'C y concluiría que la contribución de x1 es significativo. Esto significa que un predictor x1 que tiene exactamente correlación cero con y resulta ser un predictor significativo. Esta situación se conoce (de forma muy confusa, en mi opinión) como "supresión"; véase aquí el motivo: Efecto de supresión en la regresión: definición y explicación/descripción visual -- @ttnphns ilustra su gran respuesta con un montón de cifras similares a las mías aquí (sólo que mejor hechas).

1 votos

Tu respuesta me ha parecido la más fácil de entender con la ayuda de la interpretación geométrica. Magnífico.

1 votos

+1 para una ilustración útil. Sigo su sección de "mejora", pero no la de "supresión". Q1, si α=0 ¿no significaría eso que y se encuentra en el x1 eje, es decir y es un múltiplo de x1 y así cor(x1,y)=1 ? P2, ¿cómo es esta parte una ilustración de "un predictor x1 que tiene exactamente cero correlación con y '? y sigue estando correlacionada con x1 en esta sección. ¿He entendido mal?

0 votos

@qoheleth Gracias por notarlo. Debería ser α=90 en este párrafo. Lo editaré para corregirlo.

1voto

Iamanon Puntos 6

Creo que ninguna de las respuestas ha mencionado explícitamente la intuición matemática para el caso ortogonal/no correlacionado, así que lo mostraré aquí, pero no creo que esta respuesta sea 100% completa.

Supongamos que x1 et x2 no están correlacionadas, lo que implica que sus versiones centradas son ortogonales, es decir (x1ˉx1)(x2ˉx2) .

Ahora consideremos los estimadores: ˆβ=(XTX)1XTy

Sin pérdida de generalidad (los desplazamientos constantes no afectan a ˆβ ), supongamos que X aquí consisten en las versiones centradas de x1,x2 . También podemos suponer que X aquí no incluye el intercepto, lo cual está bien ya que está centrado y podemos simplemente calcular el intercepto como ˆβ0=ˉy Así que XRn×2 et (XTX)1 es diagonal, lo que hará que los estimadores de la regresión lineal múltiple sean los mismos que los de la regresión separada y en x1 et y en x2 .

Consideremos ahora la puntuación t, que se utiliza para calcular los valores p y medir la significación. Tenemos t=ˆβjβjSE(ˆβj)

Queremos comprobar la existencia de βj0 por lo que nuestra hipótesis nula es βj=0 y tenemos

t=ˆβjSE(ˆβj)

Como hemos visto antes, ˆβj no cambia cuando un predictor que es ortogonal a xj se añade. Así que para esta situación, lo único que afectaría a la puntuación t/significativa es SE(ˆβ) que sabemos que es SE(β)=var(ˆβ)=σ2(XTX)1

También hay que tener en cuenta que (XTX)1 es una matriz diagonal, por lo que este componente sigue siendo el mismo para el caso de la regresión lineal simple y la regresión lineal múltiple, por lo que lo único que podría cambiar la puntuación t es σ2 . Si conociéramos la varianza de la población, la puntuación t no cambiaría, pero normalmente estimamos la varianza de la población con ˆσ2=1np1ni=1(yiˆyi)2

El estimador de la varianza de la población es no decreciente cuando se añaden predictores adicionales (ortogonales o no) -- esto es equivalente a que el simple R2 no puede disminuir cuando se añaden predictores adicionales, porque la suma de cuadrados de los residuos sólo puede permanecer igual (lo que ocurre cuando el predictor añadido puede escribirse como una combinación lineal de los predictores actuales) o aumentar. Una forma intuitiva de pensar en esto es si teniendo p+1 predictores con coeficientes distintos de cero obtendría un ajuste peor que un subconjunto p de estos p+1 predictores, entonces los mínimos cuadrados sólo devolverían el modelo más pequeño con p predictores no nulos y 1 predictor nulo

Así que vemos que SE(ˆβ) es no decreciente, lo que significa que la puntuación t aumenta monotónicamente, lo que contribuiría a una disminución del valor p; sin embargo, los grados de libertad de la distribución t disminuyen con el aumento de los predictores, y esto resulta en un aumento del valor p. Por lo tanto, hay efectos que compiten entre sí.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X