81 votos

Visión unificada de la contracción: ¿cuál es la relación (si la hay) entre la paradoja de Stein, la regresión de cresta y los efectos aleatorios en los modelos mixtos?

Considere los tres fenómenos siguientes.

  1. Paradoja de Stein: dados unos datos de una distribución normal multivariante en $\mathbb R^n, \: n\ge 3$ La media de la muestra no es un buen estimador de la media real. Se puede obtener una estimación con menor error cuadrático medio si se encogen todas las coordenadas de la media muestral hacia cero [o hacia su media, o en realidad hacia cualquier valor, si lo entiendo bien].

    Nota: normalmente la paradoja de Stein se formula mediante la consideración de un solo punto de datos de $\mathbb R^n$ Por favor, corrígeme si esto es crucial y mi formulación anterior no es correcta.

  2. Regresión Ridge: dada una variable dependiente $\mathbf y$ y algunas variables independientes $\mathbf X$ la regresión estándar $\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y$ tiende a sobreajustar los datos y a provocar un mal rendimiento fuera de la muestra. A menudo se puede reducir el sobreajuste reduciendo $\beta$ hacia el cero: $\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y$ .

  3. Efectos aleatorios en modelos multinivel/mixtos: dada una variable dependiente $y$ (por ejemplo, la altura del estudiante) que depende de algunos predictores categóricos (por ejemplo, la identificación de la escuela y el género del estudiante), a menudo se aconseja tratar algunos predictores como "aleatorios", es decir, suponer que la altura media del estudiante en cada escuela proviene de alguna distribución normal subyacente. De este modo, las estimaciones de la estatura media por escuela se reducen a la media global.

Tengo la sensación de que todo esto son varios aspectos del mismo fenómeno de "contracción", pero no estoy seguro y ciertamente carezco de una buena intuición al respecto. Así que mi pregunta principal es: ¿existe realmente una profunda similitud entre estas tres cosas, o es sólo una apariencia superficial? ¿Cuál es el tema común aquí? ¿Cuál es la intuición correcta al respecto?

Además, hay algunas piezas de este rompecabezas que no encajan para mí:

  • En la regresión de cresta, $\beta$ no se encoge uniformemente; la contracción de la cresta está en realidad relacionada con la descomposición del valor singular de $\mathbf X$ con direcciones de baja varianza que se reducen más (véase, por ejemplo, el Los elementos del aprendizaje estadístico 3.4.1). Pero el estimador de James-Stein simplemente toma la media de la muestra y la multiplica por un factor de escala. ¿Cómo encaja eso?

    Actualización: véase Estimador James-Stein con varianzas desiguales y Por ejemplo, aquí en relación con las desviaciones de $\beta$ coeficientes.

  • La media de la muestra es óptima en las dimensiones inferiores a 3. ¿Significa esto que cuando sólo hay uno o dos predictores en el modelo de regresión, la regresión de cresta siempre será peor que los mínimos cuadrados ordinarios? En realidad, ahora que lo pienso, no puedo imaginar una situación en 1D (es decir, regresión simple y no múltiple) en la que la contracción de la cresta sea beneficiosa...

    Actualización: No. Ver ¿Bajo qué condiciones exactas la regresión de crestas es capaz de proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?

  • Por otro lado, la media muestral es siempre subóptima en dimensiones superiores a 3. ¿Significa esto que con más de 3 predictores la regresión ridge es siempre mejor que OLS, incluso si todos los predictores no están correlacionados (ortogonales)? Normalmente, la regresión ridge está motivada por la multicolinealidad y la necesidad de "estabilizar" el $(\mathbf X^\top \mathbf X)^{-1}$ plazo.

    Actualización: Sí. Véase el mismo hilo anterior.

  • A menudo se producen acaloradas discusiones sobre si los distintos factores del ANOVA deben incluirse como efectos fijos o aleatorios. ¿No deberíamos, por la misma lógica, tratar siempre un factor como aleatorio si tiene más de dos niveles (o si hay más de dos factores? ahora estoy confundido)?

    Actualización: ?


Actualización: Recibí algunas respuestas excelentes, pero ninguna proporciona una visión lo suficientemente amplia, así que dejaré la pregunta "abierta". Puedo prometer una recompensa de al menos 100 puntos a una nueva respuesta que superará a las existentes. Busco sobre todo una visión unificadora que pueda explicar cómo se manifiesta el fenómeno general de la contracción en estos diversos contextos y señalar las principales diferencias entre ellos.

40voto

Randel Puntos 3040

Conexión entre el estimador James-Stein y la regresión de cresta

Dejemos que $\mathbf y$ sea un vector de observación de $\boldsymbol \theta$ de longitud $m$ , ${\mathbf y} \sim N({\boldsymbol \theta}, \sigma^2 I)$ el estimador de James-Stein es, $$\widehat{\boldsymbol \theta}_{JS} = \left( 1 - \frac{(m-2) \sigma^2}{\|{\mathbf y}\|^2} \right) {\mathbf y}.$$ En términos de regresión de cresta, podemos estimar $\boldsymbol \theta$ a través de $\min_{\boldsymbol{\theta}} \|\mathbf{y}-\boldsymbol{\theta}\|^2 + \lambda\|\boldsymbol{\theta}\|^2 ,$ donde la solución es $$\widehat{\boldsymbol \theta}_{\mathrm{ridge}} = \frac{1}{1+\lambda}\mathbf y.$$ Es fácil ver que los dos estimadores tienen la misma forma, pero necesitamos estimar $\sigma^2$ en el estimador James-Stein, y determinar $\lambda$ en la regresión de crestas mediante validación cruzada.

Conexión entre el estimador James-Stein y los modelos de efectos aleatorios

En primer lugar, hablemos de los modelos de efectos mixtos/aleatorios en genética. El modelo es $$\mathbf {y}=\mathbf {X}\boldsymbol{\beta} + \boldsymbol{Z\theta}+\mathbf {e}, \boldsymbol{\theta}\sim N(\mathbf{0},\sigma^2_{\theta} I), \textbf{e}\sim N(\mathbf{0},\sigma^2 I).$$ Si no hay efectos fijos y $\mathbf {Z}=I$ el modelo se convierte en $$\mathbf {y}=\boldsymbol{\theta}+\mathbf {e}, \boldsymbol{\theta}\sim N(\mathbf{0},\sigma^2_{\theta} I), \textbf{e}\sim N(\mathbf{0},\sigma^2 I),$$ que es equivalente a la configuración del estimador James-Stein, con alguna idea bayesiana.

Conexión entre los modelos de efectos aleatorios y la regresión de crestas

Si nos centramos en los modelos de efectos aleatorios anteriores, $$\mathbf {y}=\mathbf {Z\theta}+\mathbf {e}, \boldsymbol{\theta}\sim N(\mathbf{0},\sigma^2_{\theta} I), \textbf{e}\sim N(\mathbf{0},\sigma^2 I).$$ La estimación es equivalente a resolver el problema $$\min_{\boldsymbol{\theta}} \|\mathbf{y}-\mathbf {Z\theta}\|^2 + \lambda\|\boldsymbol{\theta}\|^2$$ cuando $\lambda=\sigma^2/\sigma_{\theta}^2$ . La prueba se encuentra en el capítulo 3 de Reconocimiento de patrones y aprendizaje automático .

Conexión entre los modelos de efectos aleatorios (multinivel) y los de la genética

En el modelo de efectos aleatorios anterior, la dimensión de $\mathbf y$ est $m\times 1,$ y la de $\mathbf Z$ est $m \times p$ . Si vectorizamos $\mathbf Z$ como $(mp)\times 1,$ y repetir $\mathbf y$ correspondiente, entonces tenemos la estructura jerárquica/clasificada, $p$ y cada uno con $m$ unidades. Si hacemos una regresión $\mathrm{vec}(\mathbf Z)$ en repetidas ocasiones $\mathbf y$ entonces podemos obtener el efecto aleatorio de $Z$ en $y$ para cada clúster, aunque es una especie de regresión inversa.

Agradecimiento Los tres primeros puntos se han aprendido en gran medida de estos dos artículos chinos, 1 , 2 .

6voto

Andrew M Puntos 1141

Voy a dejar que la comunidad desarrolle esta respuesta, pero en general la razón por la que los estimadores de contracción *dominarán* $^1$ estimadores insesgados en muestras finitas es porque Bayes $^2$ estimadores no puede ser dominado $^3$ y muchos estimadores de contracción pueden derivarse como si fueran de Bayes. $^4$

Todo esto cae bajo la égida de la Teoría de la Decisión. Una referencia exhaustiva, aunque poco amigable, es "Theory of point estimation" de Lehmann y Casella. ¿Quizás otros puedan aportar referencias más amables?


$^1$ Un estimador $\delta_1(X)$ del parámetro $\theta \in \Omega$ sobre los datos $X$ est dominado por otro estimador $\delta_2(X)$ si para cada $\theta \in \Omega$ el riesgo (por ejemplo, el error cuadrático medio) de $\delta_1$ es igual o mayor que $\delta_2$ y $\delta_2$ late $\delta_1$ para al menos una $\theta$ . En otras palabras, se obtiene un rendimiento igual o mejor por $\delta_2$ en todo el espacio de los parámetros.

$^2$ Un estimador es Bayes (bajo pérdida de error cuadrado) si es la expectativa posterior de $\theta$ dado los datos, bajo algunas condiciones previas $\pi$ , por ejemplo, $\delta(X) = E(\theta | X)$ donde la expectativa se toma con la posterior. Naturalmente, los diferentes priores conducen a diferentes riesgos para diferentes subconjuntos de $\Omega$ . Un ejemplo de juguete importante es el anterior $$\pi_{\theta_0} = \begin{cases} 1 & \mbox{if } \theta = \theta_0 \\ 0 & \theta \neq \theta_0 \end{cases} $$ que pone toda la masa anterior alrededor del punto $\theta_0$ . Entonces se puede demostrar que el estimador de Bayes es la función constante $\delta(X) = \theta_0$ que, por supuesto, tiene un rendimiento extremadamente bueno en y cerca de $\theta_0$ y un rendimiento muy malo en otras partes. Pero, sin embargo, no puede ser dominado, porque sólo ese estimador conduce a un riesgo cero en $\theta_0$ .

$^3$ Una pregunta natural es si cualquier estimador que no pueda ser dominado (llamado admisible (aunque no sería más elegante lo de indomable) ¿es necesario que sea Bayes? La respuesta es casi. Véase "teoremas de clase completa".

$^4$ Por ejemplo, la regresión de cresta surge como un procedimiento bayesiano cuando se coloca una Normal(0, $1/\lambda^2$ ) antes de $\beta$ , y los modelos de efectos aleatorios surgen como un procedimiento empírico bayesiano en un marco similar . Estos argumentos se complican por el hecho de que la versión de vainilla de los teoremas de admisibilidad bayesianos supone que cada parámetro tiene una prioridad adecuada. Incluso en la regresión de cresta, esto no es cierto, porque la "prioridad" que se coloca en la varianza $\sigma^2$ del término de error es la función constante (medida de Lebesgue), que no es una distribución de probabilidad propia (integrable). Pero, no obstante, se puede demostrar que muchos de estos estimadores "parcialmente" Bayes son admisibles demostrando que son el "límite" de una secuencia de estimadores que son propiamente Bayes. Pero las pruebas aquí se vuelven bastante enrevesadas y delicadas. Véase "estimadores de Bayes generalizados".

2voto

James Puntos 1045
  • James-Stein asume que la dimensión de la respuesta es al menos 3. En la regresión de cresta estándar la respuesta es unidimensional. Usted confunde el número de predictores con la dimensión de la respuesta.

  • Dicho esto, veo la similitud entre esas situaciones, pero lo que hay que hacer exactamente, por ejemplo, si un factor debe ser fijo o aleatorio, cuánta contracción hay que aplicar, si es que hay que hacerlo, depende del conjunto de datos concreto. Por ejemplo, cuanto más ortogonales sean los predictores, menos sentido tiene elegir la regresión Ridge en lugar de la regresión estándar. Cuanto mayor sea el número de parámetros, más sentido tiene extraer la prioridad del propio conjunto de datos a través de Empirical Bayes y luego utilizarla para reducir las estimaciones de los parámetros. Cuanto mayor sea la relación señal-ruido, menores serán los beneficios de la reducción, etc.

2voto

Kelin Field Puntos 16

Como han dicho otros, la conexión entre los tres es cómo se incorpora la información previa a la medición.

  1. En el caso de la paradoja de Stein, se sabe que la verdadera correlación entre las variables de entrada debería ser cero (y todas las medidas de correlación posibles, ya que se quiere implicar independencia, no sólo descorrelación), por lo que se puede construir una variable mejor que la media muestral simple y suprimir las distintas medidas de correlación. En el marco bayesiano, se puede construir una prioridad que literalmente pondere a la baja los eventos que conducen a la correlación entre las medias muestrales y a la alta los demás.
  2. En el caso de la regresión de cresta se quiere encontrar una buena estimación del valor de la expectativa condicional E(y|x). En principio, se trata de un problema de dimensiones infinitas y mal definido, ya que sólo disponemos de un número finito de mediciones. Sin embargo, el conocimiento previo es que estamos buscando una función continua que modele los datos. Esto sigue estando mal definido, ya que todavía hay infinitas formas de modelar funciones continuas, pero el conjunto es algo más pequeño. La regresión de cresta es sólo una forma sencilla de ordenar las posibles funciones continuas, probarlas y detenerse en un último grado de libertad. Una interpretación es la imagen de la dimensión VC: durante la regresión de cresta, se comprueba lo bien que un modelo f(x, p1, p2... ) con un grado de libertad determinado describe la incertidumbre inherente a los datos. Prácticamente, se mide lo bien que pueden la f(x, p1, p2 ... ) y la P(p1,p2...) empírica reconstruir la distribución P(y|x) completa y no sólo E(y|x). De este modo, los modelos con demasiados grados de libertad (que suelen sobreajustar) se ven lastrados, ya que más media de parámetros después de un determinado grado de libertad dará mayores correlaciones entre los parámetros y, en consecuencia, distribuciones P(f(x, p1, p2... ) mucho más amplias. Otra interpretación es que la función de pérdida original es un valor de medida también, y la evaluación en una muestra dada viene con una incertidumbre, por lo que la tarea real no es minimizar la función de pérdida, sino encontrar un mínimo que sea significativamente menor que los otros (prácticamente el cambio de un grado de libertad a otro es una decisión bayesiana, por lo que uno cambia el número de parámetros sólo si dan una disminución significativa en la función de pérdida). La regresión ridge puede interpretarse como una aproximación a estos dos cuadros (dimensión del CV, pérdida esperada). En algunos casos se quiere preferir mayores grados de libertad, por ejemplo en la física de partículas se estudia la colisión de partículas donde se espera que el número producido de partículas sea una distribución de Poisson, por lo que se reconstruye el rastro de las partículas a partir de una imagen (una foto, por ejemplo) de forma que se prefiere un número determinado de rastreos y se suprimen los modelos que tienen una interpretación menor o mayor del número de rastreos de la imagen.
  3. El tercer caso también trata de implementar una información previa en la medición, a saber, que se sabe por mediciones anteriores que la altura de los estudiantes puede ser modelada muy bien por distribuciones gaussianas y no por una Cauchy, por ejemplo.

Así que, en resumen, la respuesta es que se puede reducir la incertidumbre de una medición si se sabe qué esperar y se categorizan los datos con algunos datos anteriores (la información previa). Estos datos previos son los que limitan la función de modelización que se utiliza para ajustar las mediciones. En casos sencillos puedes escribir tu modelo en el marco bayesiano, pero a veces es poco práctico, como en la integración sobre todas las posibles funciones continuas para encontrar la que tiene el valor A posterior máximo bayesiano.

2voto

daniel Puntos 11

Estimador James Stein y regresión Ridge

Considere

$\mathbf y=\mathbf{X}\beta+\mathbf{\epsilon}$

Con $\mathbf{\epsilon}\sim N(0,\sigma^2I)$

La solución de mínimos cuadrados es de la forma

$\hat \beta= \mathbf S^{-1}\mathbf{X}'\mathbf{y}$ donde $\mathbf S= \mathbf X'\mathbf X$ .

$\hat \beta $ es imparcial para $\beta$ y tiene una matriz de covarianza $\sigma^2 \mathbf S^{-1}$ . Por lo tanto, podemos escribir

$\hat \beta \sim N(\beta, \sigma^2\mathbf S^{-1})$ Tenga en cuenta que $\hat \beta $ son las estimaciones de máxima verosimilitud, MLE.

James Stein

Para simplificar, en el caso de Jame Stein, supondremos que $\mathbf S=\mathbf I$ . James y Stein añadirán a continuación un prior en el $\beta$ de la forma

$\beta \sim N(0,a\mathbf I)$

Y obtendrá una posterior de la forma $\frac{a}{a+\sigma^2}\hat \beta=(1-\frac{\sigma^2}{a+\sigma^2})\hat \beta$ Entonces, estimarán $\frac{1}{a+\sigma^2}$ con $\frac{p-2}{\|\hat \beta\|^2}$ y obtener un estimador de James Stein de la forma

$\hat \beta=(1-\frac{p-2}{\|\hat \beta\|^2})\hat \beta$ .

Regresión Ridge

En la regresión de cresta $\mathbf X$ se suele estandarizar (media 0, vairance 1 para cada columna de $\mathbf X$ ) para que los parámetros de regresión $\beta=(\beta_1,\beta_2,\ldots, \beta_p)$ son comparables. Cuando esto es $S_{ii}=1$ para $i=1,2,\ldots,p$ .

Una estimación de regresión de cresta de $\beta$ se define como, $\lambda\geq0$ , para ser

$\hat \beta (\lambda) =(\mathbf S+\lambda I)^{-1}\mathbf X'\mathbf y=(\mathbf S +\lambda\mathbf I)^{-1}\mathbf S \hat \beta$ nota que $\hat \beta$ es la MLE.

¿Cómo fue $\hat \beta (\lambda)$ ¿se deriva? Recuerde

$\hat \beta \sim N(\hat \beta, \sigma^2\mathbf S^{-1})$ y si añadimos una prioridad bayesiana

$\beta\sim N(0,\frac{\sigma^2}{\lambda}\mathbf I)$

Entonces obtenemos

$\text{E}\left(\beta|\hat \beta\right)=(\mathbf S +\lambda\mathbf I)^{-1}\mathbf S \hat \beta$

Igual que la estimación de la regresión de cresta $\hat \beta (\lambda)$ . Así que la forma original del James Stein dada aquí toma $\mathbf S=\mathbf I$ y $a=\frac{\sigma^2}{\lambda}$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X