Veo textos en los que se utilizan los residuos estudiados cuando se discuten problemas de regresión. ¿Existen reglas generales para saber cuándo aplicar los residuos estudiados? Quiero decir, ¿cuándo podemos decir que el gráfico de residuos normales es insuficiente para saber si hay valores atípicos y puntos de alto apalancamiento? Por lo que veo, los gráficos de residuos normales parecen suficientes.
Respuestas
¿Demasiados anuncios?La estandarización es el proceso de normalización de las observaciones mediante la media y la varianza de la muestra. Este proceso suele ser necesario para obtener estadísticas auxiliares con el fin de probar una hipótesis del modelo en los casos en los que hay parámetros desconocidos. Cuando se comprueba si los datos proceden de alguna distribución supuesta, en realidad se está probando una familia de distribuciones que están indexadas por un parámetro molesto. La estandarización le ayuda a obtener valores observables que tienen una distribución fija bajo todas las distribuciones particulares de esa familia (es decir, estadísticas auxiliares).
Comprobación de la distribución normal mediante los valores de los alumnos: Supongamos que se observa una muestra de valores $X_1, ..., X_n$ extraídos de una serie intercambiable de valores observables (es decir, son variables aleatorias IID) y se quiere comprobar si estos valores siguen una distribución normal.
Para ello, se puede trazar un gráfico QQ, comparando los cuantiles de la muestra con los cuantiles teóricos de la distribución propuesta. La dificultad de esto es que "la distribución normal" es en realidad una familia de distribuciones que dependen de un parámetro medio desconocido $\mu$ y el parámetro de desviación estándar $\sigma$ . Los cuantiles teóricos de "la distribución normal" dependen de estos dos parámetros, así que ¿cuáles son los cuantiles teóricos que se supone que se están trazando?
Para solucionar este problema, puede studentise sus datos para obtener valores que son estadísticas auxiliares (marginales). Utilizando la media muestral $\bar{X}$ y la desviación estándar de la muestra $S$ , se pueden formar las estadísticas:
$$T_i \equiv \sqrt{\frac{n}{n-1}} \cdot \frac{X_i - \bar{X}}{S}.$$
Estos son los valores estudiados correspondientes a los valores observables originales. (El término de la parte delantera es para ajustar la supresión de la varianza que se produce al utilizar la media de la muestra para la ubicación central). Ahora, si $X_1, ..., X_n \sim \text{IID N} (\mu, \sigma^2)$ entonces se puede demostrar que: $\dagger$
$$T_1, ..., T_n \sim \text{Student's } T(\text{df} = n-1).$$
Obsérvese que la distribución de estas cantidades no depende de los parámetros $\mu$ y $\sigma$ . Esto significa que los valores estudiados adoptan una distribución fija, siempre que los valores observables subyacentes adopten cualquier distribución normal. Por lo tanto, puede comprobar si los valores subyacentes son normales comparando las cantidades estudiadas con una distribución T de Student. Esto se puede hacer formando un gráfico QQ, en el que ahora se pueden calcular los cuantiles teóricos exactos, debido a que éstos no dependen de los parámetros de la distribución normal.
$\dagger$ Nota: Los valores estudiados no son del todo IID en este caso. Hay cierta correlación entre los valores debido a la estimación de la media y la varianza. Para los grandes $n$ los valores estudiados se vuelven asintóticamente independientes.
La ventaja de los residuos estudiados es que tienen una distribución conocida (t con N - k - 1 df), por lo que se pueden hacer pruebas de significación de los residuos. Esto no se puede hacer con los residuos normales (o con los residuos estandarizados).
Si quieres hacer una inspección visual para buscar valores atípicos y puntos de apalancamiento, los residuos regulares están bien.