Lo que describes me suena a regresión de cresta o regularización de Tikhonov . Se añade una cresta a la diagonal, es decir, una matriz de identidad escalada.
El problema es que si tienes más variables que observaciones, es decir $p>>n$ En algunos modelos, por ejemplo, un modelo lineal, no se pueden estimar los parámetros. Si tiene un modelo: $$ \mathbf{y} = \mathbf{X}\beta + \epsilon $$ Donde $\mathbf{y}$ es $n\times 1$ y $\mathbf{X}$ es $n\times p$ . Ahora la estimación de $\beta$ es de la forma: $$ \hat{\beta} = (\mathbf{X}^T \mathbf{X})^{-1}\mathbf{X}^T \mathbf{y} $$
Obsérvese que la matriz $\mathbf{X}^T \mathbf{X}$ tendrá un rango deficiente si $p>>n$ (aquí la matriz $\sigma^2(\mathbf{X}^T \mathbf{X})^{-1}$ es la matriz de covarianza de los parámetros $\beta$ ). Por lo tanto, tenemos que añadir alguna forma de regularización para poder obtener una solución, porque eso requiere que invirtamos esta matriz. Uno de estos tipos es el que mencionas.
Así que esto es mejor, porque no podemos obtener ninguna estimación a menos que desechemos algunas de las variables o añadamos alguna forma de regularización.
EDITAR: Para responder a su pregunta de si esta estimación presentada en el documento es mejor que la verdadera matriz de covarianza, debería leer las conlusiones del documento:
En este trabajo, hemos discutido la estimación de la covarianza de grandes dimensiones donde el número de variables (iid) no es pequeño en comparación con el tamaño de la muestra. Es bien sabido que en tales situaciones el estimador habitual, la matriz de covarianza de la muestra de covarianza de la muestra, está mal condicionado y puede incluso no ser invertible. El enfoque sugerido es reducir la matriz de covarianza de la muestra hacia la matriz de identidad, lo que significa considerar una combinación lineal convexa de estas dos matrices. El problema práctico de problema práctico es determinar la intensidad de la contracción, es decir, la cantidad de de contracción de la matriz de covarianza de la muestra hacia la matriz de identidad. Para resolver este problema, consideramos un marco asintótico general en el que el número de variables tiende a infinito con el tamaño de la muestra. Se ha visto que bajo condiciones leves, la intensidad de contracción óptima tiende a una constante límite; En este caso, la optimización se refiere a una función de pérdida cuadrática basada en la norma de Frobenius. norma de Frobenius. Se demostró que la intensidad de contracción asintóticamente óptima puede ser estimada de forma consistente, lo que conduce a un estimador factible. Tanto los resultados asintóticos y las extensas simulaciones de Monte-Carlo presentadas en este Este artículo indica que el estimador de contracción sugerido puede servir como alternativa a la covarianza de la muestra. alternativa a la matriz de covarianza de la muestra. Tiene un riesgo menor y está mejor condicionada. Esto es especialmente cierto cuando la dimensión de la matriz de covarianza es grande en comparación con el tamaño de la muestra
Así, la estimación que proporcionan se compara con la estimación de la covarianza de la muestra. No con la verdadera matriz de covarianza subyacente.
EDIT2: La forma en que los autores describen esto como mejor, (en la página 3 del manuscrito), se refiere al número de condición de la matriz. Eso significa que su estimación es más estable numéricamente. Esto suele ocurrir cuando se realiza cualquier tipo de regularización, ya que se reduce el número efectivo de parámetros que se están estimando.
1 votos
¿Por qué utilizar una estimación si se conoce el valor real? Además, estoy intentando comprender qué $n$ y $p$ en este contexto, preguntándose si no es más habitual utilizar una notación invertida ( $n$ en lugar de $p$ y viceversa). ¿Tiene usted $n$ realizaciones de un $p$ -vector aleatorio variable, o tienes $p$ realizaciones de un $n$ -¿Vector aleatorio variable? Creo que la primera sería la notación estándar, mientras que la segunda sería invertida. Así, cuando se dice $p \gg n$ ¿quieres decir que la dimensión de la variable aleatoria es mayor que el número de realizaciones, o viceversa?
0 votos
Se puede decir que $n$ corresponde a los datos secundarios utilizados para estimar la matriz de covarianza desconocida y $p$ la dimensión de la matriz. Por lo tanto, el tamaño de la matriz de covarianza aumenta cuadráticamente con p.
1 votos
Así que $n$ ¿es el tamaño de la muestra (el número de realizaciones)? Si añades algunas observaciones más, será $n$ que aumentará?
0 votos
Sí. Así que cuando $p>n$ la matriz de covarianza de la muestra no es invertible (singular).
1 votos
OK, lo tengo. Me pregunto por qué una estimación será "mejor" que el valor real. ¿Podrías aportar alguna intuición (quizás ampliando tu post en lugar de poner un comentario)?
0 votos
Sí :) He añadido un pequeño párrafo a mi pregunta.
0 votos
Prueba esto: Bickel, Peter J., y Elizaveta Levina. "Regularización de la covarianza por umbralización". The Annals of Statistics 36, no. 6 (diciembre de 2008): 2577–2604. doi:10.1214/08-AOS600.