(La respuesta que sigue se limita a introducir y exponer el teorema demostrado en la Ec. (0) La belleza de ese documento es que la mayoría de los argumentos se hacen en términos de álgebra lineal básica. Para responder a esta pregunta bastará con exponer los principales resultados, pero no dudes en consultar la fuente original).
En cualquier situación en la que el patrón multivariante de los datos pueda ser descrito por una $k$ -La inferencia estadística se reduce, por definición, al problema de ajustar (y caracterizar) una distribución elíptica variable. $k$ -vector de localización variable (digamos $\boldsymbol\theta$ ) y un $k\times k$ matriz simétrica semipositiva definida (SPSD) (digamos $\boldsymbol\varSigma$ ) a los datos. Por las razones que se explican a continuación (que se asumen como premisas) a menudo será más significativo descomponer $\boldsymbol\varSigma$ en su componente de forma (una matriz SPSD del mismo tamaño que $\boldsymbol\varSigma$ ) que representa la forma de los contornos de la densidad de su distribución multivariante y un escalar $\sigma_S$ expresando la escala de estos contornos.
En los datos univariantes ( $k=1$ ), $\boldsymbol\varSigma$ la matriz de covarianza de sus datos es un escalar y, como se deduce de la discusión que sigue, el componente de forma de $\boldsymbol\varSigma$ es 1 para que $\boldsymbol\varSigma$ es igual a su componente de escala $\boldsymbol\varSigma=\sigma_S$ siempre y no hay ambigüedad posible.
En los datos multivariantes, hay muchas opciones posibles para las funciones de escala $\sigma_S$ . Uno en particular ( $\sigma_S=|\pmb\varSigma|^{1/k}$ ) destaca por tener una propiedad clave deseable, lo que la convierte en la opción preferida de las funciones de escala en el contexto de las familias elípticas.
Muchos problemas en la estadística MV implican la estimación de una matriz de dispersión, definida como una función(al) matriz SPSD en $\mathbb{R}^{k\times k}$ ( $\boldsymbol\varSigma$ ) satisfactoria:
$$(0)\quad\boldsymbol\varSigma(\boldsymbol A\boldsymbol X+\boldsymbol b)=\boldsymbol A\boldsymbol\varSigma(\boldsymbol X)\boldsymbol A^\top$$ (para matrices no singulares $\boldsymbol A$ y vectores $\boldsymbol b$ ). Por ejemplo, la estimación clásica de la covarianza satisface (0), pero no es en absoluto la única.
En presencia de datos distribuidos elípticamente, donde todos los contornos de densidad son elipses definidas por la misma matriz de forma, hasta la multiplicación por un escalar, es natural considerar versiones normalizadas de $\boldsymbol\varSigma$ de la forma:
$$\boldsymbol V_S = \boldsymbol\varSigma / S(\boldsymbol\varSigma)$$
donde $S$ es una función 1-honógena que satisface
$$(1)\quad S(\lambda \boldsymbol\varSigma)=\lambda S(\boldsymbol\varSigma) $$
para todos $\lambda>0$ . Entonces, $\boldsymbol V_S$ se denomina componente de forma de la matriz de dispersión (en definitiva, matriz de forma) y $\sigma_S=S^{1/2}(\boldsymbol\varSigma)$ se denomina componente de escala de la matriz de dispersión. Ejemplos de problemas de estimación multivariante en los que la función de pérdida sólo depende de $\boldsymbol\varSigma$ a través de su componente de forma $\boldsymbol V_S$ incluyen pruebas de esfericidad, PCA y CCA, entre otras.
Por supuesto, hay muchas funciones de escala posibles, por lo que todavía queda abierta la cuestión de cuál (si es que hay alguna) de las varias opciones de función de normalización $S$ son en cierto sentido óptimas. Por ejemplo:
- $S=\text{tr}(\boldsymbol\varSigma)/k$ (por ejemplo el propuesto por @amoeba en su comentario debajo de la pregunta del OP así como la respuesta de @HelloGoodbye más abajo. Véase también [1], [2], [3])
- $S=|\boldsymbol\varSigma|^{1/k}$ ([4], [5], [6], [7], [8])
- $\boldsymbol\varSigma_{11}$ (la primera entrada de la matriz de covarianza)
- $\lambda_1(\boldsymbol\varSigma)$ (el primer valor propio de $\boldsymbol\varSigma$ ), esto se llama norma espectral y se discute en la respuesta de @Aksakal más abajo.
Entre ellas, $S=|\boldsymbol\varSigma|^{1/k}$ es la única función de escala para la que la matriz de información de Fisher para las correspondientes estimaciones de escala y forma, en familias localmente asintóticamente normales, son diagonales en bloque (es decir, los componentes de escala y forma del problema de estimación son asintóticamente ortogonales) [0]. Esto significa, entre otras cosas, que la función de escala $S=|\boldsymbol\varSigma|^{1/k}$ es la única opción de $S$ para el que la no especificación de $\sigma_S$ no causa ninguna pérdida de eficiencia al realizar la inferencia sobre $\boldsymbol V_S$ .
No conozco ninguna caracterización de optimalidad comparativamente fuerte para cualquiera de las muchas opciones posibles de $S$ que satisfagan (1).
- [0] Paindaveine, D., A canonical definition of shape, Statistics & Probability Letters, Volume 78, Issue 14, 1 October 2008, Pages 2240-2247. Enlace no marcado
- [1] Dumbgen, L. (1998). On Tyler's M-functional of scatter in high dimension, Ann. Inst. Statist. Math. 50, 471-491.
- [2] Ollila, E., T.P. Hettmansperger y H. Oja (2004). Affine equivariant multivariate sign methods. Preprint, University of Jyvaskyla.
- [3] Tyler, D.E. (1983). Robustness and efficiency properties of scatter matrices, Biometrika 70, 411-420.
- [4] Dumbgen, L., y D.E. Tyler (2005). On the breakdown properties of some multivariate M-Functionals, Scand. J. Statist. 32, 247-264.
- [5] Hallin, M. y D. Paindaveine (2008). Optimal rank-based tests for homogeneity of scatter, Ann. Statist, pendiente de publicación.
- [6] Salibian-Barrera, M., S. Van Aelst y G. Willems (200 6). Principal components analysis based on multivariate MM-estimators with fast and robust bootstrap, J. Amer. Statist. Assoc. 101, 1198-1211.
- [7] Taskinen, S., C. Croux, A. Kankainen, E. Ollila y H. O ja (2006). Funciones de influencia y eficiencias de la correlación canónica y estimaciones vectoriales basadas en matrices de dispersión y de forma, J. Multivariate Anal. 97, 359-384.
- [8] Tatsuoka, K.S., y D.E. Tyler (2000). On the uniqueness of S-Functionals and M-functionals under nonelliptical distributions, Ann. Statist. 28, 1219-1243.