Considere los tres fenómenos siguientes.
-
Paradoja de Stein: dados unos datos de una distribución normal multivariante en $\mathbb R^n, \: n\ge 3$ La media de la muestra no es un buen estimador de la media real. Se puede obtener una estimación con menor error cuadrático medio si se encogen todas las coordenadas de la media muestral hacia cero [o hacia su media, o en realidad hacia cualquier valor, si lo entiendo bien].
Nota: normalmente la paradoja de Stein se formula mediante la consideración de un solo punto de datos de $\mathbb R^n$ Por favor, corrígeme si esto es crucial y mi formulación anterior no es correcta.
-
Regresión Ridge: dada una variable dependiente $\mathbf y$ y algunas variables independientes $\mathbf X$ la regresión estándar $\beta = (\mathbf X^\top \mathbf X)^{-1} \mathbf X^\top \mathbf y$ tiende a sobreajustar los datos y a provocar un mal rendimiento fuera de la muestra. A menudo se puede reducir el sobreajuste reduciendo $\beta$ hacia el cero: $\beta = (\mathbf X^\top \mathbf X + \lambda \mathbf I)^{-1} \mathbf X^\top \mathbf y$ .
-
Efectos aleatorios en modelos multinivel/mixtos: dada una variable dependiente $y$ (por ejemplo, la altura del estudiante) que depende de algunos predictores categóricos (por ejemplo, la identificación de la escuela y el género del estudiante), a menudo se aconseja tratar algunos predictores como "aleatorios", es decir, suponer que la altura media del estudiante en cada escuela proviene de alguna distribución normal subyacente. De este modo, las estimaciones de la estatura media por escuela se reducen a la media global.
Tengo la sensación de que todo esto son varios aspectos del mismo fenómeno de "contracción", pero no estoy seguro y ciertamente carezco de una buena intuición al respecto. Así que mi pregunta principal es: ¿existe realmente una profunda similitud entre estas tres cosas, o es sólo una apariencia superficial? ¿Cuál es el tema común aquí? ¿Cuál es la intuición correcta al respecto?
Además, hay algunas piezas de este rompecabezas que no encajan para mí:
-
En la regresión de cresta, $\beta$ no se encoge uniformemente; la contracción de la cresta está en realidad relacionada con la descomposición del valor singular de $\mathbf X$ con direcciones de baja varianza que se reducen más (véase, por ejemplo, el Los elementos del aprendizaje estadístico 3.4.1). Pero el estimador de James-Stein simplemente toma la media de la muestra y la multiplica por un factor de escala. ¿Cómo encaja eso?
Actualización: véase Estimador James-Stein con varianzas desiguales y Por ejemplo, aquí en relación con las desviaciones de $\beta$ coeficientes.
-
La media de la muestra es óptima en las dimensiones inferiores a 3. ¿Significa esto que cuando sólo hay uno o dos predictores en el modelo de regresión, la regresión de cresta siempre será peor que los mínimos cuadrados ordinarios? En realidad, ahora que lo pienso, no puedo imaginar una situación en 1D (es decir, regresión simple y no múltiple) en la que la contracción de la cresta sea beneficiosa...
Actualización: No. Ver ¿Bajo qué condiciones exactas la regresión de crestas es capaz de proporcionar una mejora sobre la regresión de mínimos cuadrados ordinarios?
-
Por otro lado, la media muestral es siempre subóptima en dimensiones superiores a 3. ¿Significa esto que con más de 3 predictores la regresión ridge es siempre mejor que OLS, incluso si todos los predictores no están correlacionados (ortogonales)? Normalmente, la regresión ridge está motivada por la multicolinealidad y la necesidad de "estabilizar" el $(\mathbf X^\top \mathbf X)^{-1}$ plazo.
Actualización: Sí. Véase el mismo hilo anterior.
-
A menudo se producen acaloradas discusiones sobre si los distintos factores del ANOVA deben incluirse como efectos fijos o aleatorios. ¿No deberíamos, por la misma lógica, tratar siempre un factor como aleatorio si tiene más de dos niveles (o si hay más de dos factores? ahora estoy confundido)?
Actualización: ?
Actualización: Recibí algunas respuestas excelentes, pero ninguna proporciona una visión lo suficientemente amplia, así que dejaré la pregunta "abierta". Puedo prometer una recompensa de al menos 100 puntos a una nueva respuesta que superará a las existentes. Busco sobre todo una visión unificadora que pueda explicar cómo se manifiesta el fenómeno general de la contracción en estos diversos contextos y señalar las principales diferencias entre ellos.