71 votos

¿Qué problema resuelven los métodos de contracción?

La temporada de vacaciones me ha dado la oportunidad de acurrucarme junto al fuego con Los elementos del aprendizaje estadístico . Viniendo de una perspectiva econométrica (frecuentista), tengo problemas para comprender los usos de los métodos de contracción como la regresión de cresta, el lazo y la regresión de ángulo mínimo (LAR). Normalmente, me interesan las propias estimaciones de los parámetros y conseguir la insesgadez o al menos la coherencia. Los métodos de contracción no hacen eso.

Me parece que estos métodos se utilizan cuando al estadístico le preocupa que la función de regresión responda demasiado a los predictores, que considere que los predictores son más importantes (medidos por la magnitud de los coeficientes) de lo que realmente son. En otras palabras, un exceso de ajuste.

Pero, OLS normalmente proporciona estimaciones insesgadas y consistentes.(nota al pie) Siempre he visto el problema del sobreajuste no de dar estimaciones que son demasiado grandes, sino más bien intervalos de confianza que son demasiado pequeños porque el proceso de selección no se tiene en cuenta (ESL menciona este último punto).

Las estimaciones de coeficientes insesgadas/consistentes conducen a predicciones insesgadas/consistentes del resultado. Los métodos de contracción acercan las predicciones al resultado medio más de lo que lo haría OLS, dejando aparentemente información sobre la mesa.

Para reiterar, no veo qué problema intentan resolver los métodos de contracción. ¿Me estoy perdiendo algo?

Nota: Necesitamos la condición de rango de columna completo para la identificación de los coeficientes. El supuesto de exogeneidad/media condicional cero para los errores y el supuesto de expectativa condicional lineal determinan la interpretación que podemos dar a los coeficientes, pero obtenemos una estimación insesgada o consistente de algo incluso si estos supuestos no son ciertos.

53voto

Sean Hanley Puntos 2428

Sospecho que quieres una respuesta más profunda, y tendré que dejar que otra persona te la proporcione, pero puedo darte algunas ideas sobre la regresión de crestas desde una perspectiva suelta y conceptual.

La regresión OLS produce estimaciones de parámetros insesgadas (es decir, si se recogen esas muestras y se estiman los parámetros indefinidamente, la distribución muestral de las estimaciones de los parámetros se centrará en el valor verdadero). Además, la distribución de muestreo tendrá la menor varianza de todas las posibles estimaciones insesgadas (esto significa que, en promedio, una estimación de parámetros OLS estará más cerca del valor verdadero que una estimación de algún otro procedimiento de estimación insesgada). Esto es una noticia vieja (y me disculpo, sé que lo sabes bien), sin embargo, el hecho de que la varianza sea baja no significa que sea terriblemente bajo . En algunas circunstancias, la varianza de la distribución del muestreo puede ser tan grande que haga que el estimador MCO sea esencialmente inútil. (Una situación en la que esto podría ocurrir es cuando hay un alto grado de multicolinealidad).

¿Qué se puede hacer en una situación así? Bueno, se podría encontrar un estimador diferente que tenga menor varianza (aunque, obviamente, debe estar sesgado, dado lo estipulado anteriormente). Es decir, estamos cambiando la insesgadez por una menor varianza. Por ejemplo, obtenemos estimaciones de los parámetros que probablemente se acerquen más al valor real, aunque probablemente estén un poco por debajo del valor real. Si esta compensación merece la pena es un juicio que el analista debe hacer cuando se enfrenta a esta situación. En cualquier caso, la regresión de cresta es precisamente una técnica de este tipo. La siguiente figura (completamente inventada) pretende ilustrar estas ideas.

enter image description here

Este ofrece una breve y sencilla introducción conceptual a la regresión de crestas. Conozco menos sobre lasso y LAR, pero creo que se podrían aplicar las mismas ideas. Se puede encontrar más información sobre el lazo y la regresión de ángulo mínimo aquí El enlace "explicación sencilla..." es especialmente útil. Este ofrece mucha más información sobre los métodos de contracción.

Espero que esto tenga algún valor.

17voto

John Richardson Puntos 1197

El error de un estimador es una combinación de (al cuadrado) componentes de sesgo y varianza . Sin embargo, en la práctica queremos ajustar un modelo a una muestra finita de datos y queremos minimizar el error total del estimador evaluado en la muestra particular de datos que realmente tenemos en lugar de un error cero en la media de alguna población de muestras (que no tenemos). Por lo tanto, queremos reducir tanto el sesgo como la varianza, para minimizar el error, lo que a menudo significa sacrificar la insesgadez para lograr una mayor reducción del componente de la varianza. Esto es especialmente cierto cuando se trata de conjuntos de datos pequeños, en los que es probable que la varianza sea alta.

Creo que la diferencia de enfoque depende de si uno está interesado en las propiedades de un procedimiento o en obtener los mejores resultados en una muestra concreta. Los frecuentistas suelen encontrar lo primero más fácil de tratar dentro de ese marco; los bayesianos suelen centrarse más en lo segundo.

11voto

simmosn Puntos 304

Supongo que hay algunas respuestas que pueden ser aplicables:

  • La regresión Ridge puede proporcionar la identificación cuando la matriz de predictores no es de rango de columna completo.
  • Lasso y LAR pueden utilizarse cuando el número de predictores es mayor que el número de observaciones (otra variante de la cuestión no singular).
  • Lasso y LAR son algoritmos de selección automática de variables.

No estoy seguro de que el primer punto relativo a la regresión de cresta sea realmente una característica; creo que preferiría cambiar mi modelo para tratar la no identificación. Incluso sin un cambio de modelo, OLS proporciona predicciones únicas (e insesgadas/consistentes) del resultado en este caso.

Podría ver cómo el segundo punto podría ser útil, pero la selección hacia adelante también puede funcionar en el caso de que el número de parámetros exceda el número de observaciones, mientras que produce estimaciones insesgadas/consistentes.

En cuanto al último punto, la selección hacia adelante/hacia atrás, como ejemplos, son fácilmente automatizables.

Así que sigo sin ver las ventajas reales.

5voto

kobame Puntos 352

He aquí un ejemplo básico aplicado de bioestadística

Supongamos que estoy estudiando las posibles relaciones entre la presencia de cáncer de ovario y un conjunto de genes.

Mi variable dependiente es binaria (codificada como un cero o un 1) Mis variables independientes codifican datos de una base de datos proteómica.

Como es habitual en muchos estudios de genética, mis datos son mucho más amplios que altos. Tengo 216 observaciones diferentes, pero unos 4.000 predictores posibles.

La regresión lineal está fuera de lugar (el sistema es horriblemente sobredeterminado).

las técnicas de selección de características no son realmente factibles. Con más de 4.000 variables independientes diferentes, todas las técnicas de subconjuntos posibles están totalmente descartadas, e incluso la selección secuencial de características es dudosa.

La mejor opción es probablemente utilizar la regresión logística con una red elástica.

Quiero hacer una selección de características (identificar qué variables independientes son importantes), por lo que la regresión de cresta no es realmente apropiada.

Es muy posible que haya más de 216 variables independientes que tengan una influencia significativa, por lo que probablemente no debería utilizar un lazo (el lazo no puede identificar más predictores que observaciones)...

Entra la red elástica...

0voto

Zolani13 Puntos 128

Otro problema que pueden abordar los métodos de contracción de la regresión lineal es la obtención de una estimación de baja varianza (posiblemente insesgada) de un efecto medio del tratamiento (ATE) en estudios de casos y controles de alta dimensión sobre datos observacionales.

En concreto, en los casos en los que 1) hay un gran número de variables (lo que dificulta la selección de variables para el emparejamiento exacto), 2) el emparejamiento de puntuación de propensión no consigue eliminar el desequilibrio en las muestras de tratamiento y control, y 3) la multicolinealidad está presente, existen varias técnicas, como el lazo adaptativo (Zou, 2006) que obtienen estimaciones asintóticamente insesgadas. Ha habido varios artículos que discuten el uso de la regresión del lazo para la inferencia causal y la generación de intervalos de confianza en las estimaciones de los coeficientes (véase el siguiente post: Inferencia después de utilizar Lasso para la selección de variables ).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X