Estoy interesado en obtener una estimación insesgada de $R^2$ en una regresión lineal múltiple.
En la reflexión, puedo pensar en dos diferentes valores que una estimación insesgada de $R^2$ podría estar tratando de igualar.
- De la muestra $R^2$: el r-cuadrado que se habría obtenido si la ecuación de regresión obtenida de la muestra (es decir, $\hat{\beta}$) fueron aplicados a una cantidad infinita de datos externos a la muestra, sino que a partir de los mismos datos proceso de generación.
- Población $R^2$: El r-cuadrado que se habría obtenido si el infinito de la muestra se obtuvieron y el modelo ajustado a infinito de la muestra (es decir, $\beta$) o, alternativamente, sólo el R-cuadrado implícita por los datos conocidos proceso de generación.
Entiendo que ajusta $R^2$ está diseñado para compensar el sobreajuste observado en la muestra $R^2$. Sin embargo, no está claro si ajusta $R^2$ es en realidad una estimación insesgada de $R^2$, y si se trata de una estimación insesgada, ¿cuál de las dos definiciones de $R^2$ es con el objetivo de estimar.
Por lo tanto, mis preguntas:
- ¿Qué es una estimación insesgada de lo que yo llamo por encima de la muestra $R^2$?
- ¿Qué es una estimación insesgada de lo que yo llamo por encima de la población $R^2$?
- Hay referencias que proporcionan una simulación o de otra prueba de la unbiasedness?