Hacer una valoración ingenua de la situación:
En general: supongamos que tenemos dos sistemas diferentes de funciones de base $\{p_n\}_{n=1}^\infty$ así como $\{\tilde{p}\}_{n=1}^\infty$ para algún espacio de funciones (hilbert-), usual $L_2([a,b])$ es decir, el espacio de todas las funciones cuadradas integrables.
Esto significa que cada una de las dos bases puede utilizarse para explicar cada elemento de $L_2([a,b])$ es decir, para $y \in L_2([a,b])$ se tiene para algunos coeficientes $\theta_n$ y $\tilde{\theta}_n \in \mathbb{R}$ , $n=1,2,\dots$ (en el $L_2$ -sentido): $$ \sum_{n=1}^\infty \tilde{\theta}_n \tilde{p}_n = y= \sum_{n=1}^\infty \theta_n p_n.$$
Sin embargo, por otro lado, si se truncan ambos conjuntos de funciones de base en algún número $k<\infty$ es decir, se toma $$\{p_n\}_{n=1}^k$$ así como $$\{\tilde{p}\}_{n=1}^k,$$ es muy probable que estos conjuntos truncados de funciones de base describan "partes diferentes" de $L_2([a,b])$ .
Sin embargo, aquí en el caso especial en el que una base, $\{\tilde{p}\}_{n=1}^\infty$ no es más que una ortogonalización de la otra base, $\{p_n\}_{n=1}^\infty$ la predicción global de $y$ será el mismo para cada modelo truncado ( $\{p\}_{n=1}^k$ y su contraparte ortogonalizada describirán el mismo $k$ -subespacio dimensional de $L_2([a,b])$ ).
Pero cada función de base individual de las dos bases "diferentes" producirá una contribución diferente a esta predicción (¡obviamente como las funciones/predictores son diferentes!) resultando en diferentes $p$ -valores y coeficientes.
Por lo tanto, en términos de predicción no hay (en este caso) ninguna diferencia.
Desde un punto de vista computacional, una matriz modelo formada por funciones de base ortogonales tiene buenas propiedades numéricas/computacionales para el estimador de mínimos cuadrados. Al mismo tiempo, desde el punto de vista estadístico, la ortogonalización da lugar a estimaciones no correlacionadas, ya que $var(\hat{\tilde{\theta}}) = I \sigma²$ bajo los supuestos estándar.
La pregunta natural que surge es si existe el mejor sistema de bases truncadas. Sin embargo, la respuesta a la pregunta no es sencilla ni única y depende, por ejemplo, de la definición de la palabra "mejor", es decir, de lo que se intente archivar.
1 votos
Debería reflexionar sobre que Los valores p son diferentes cuando se ajusta el mismo modelo a los mismos datos utilizando polinomios brutos y ortogonales, y su interpretación. ¿Qué ocurre con las predicciones del modelo?
0 votos
@Scortchi He añadido la información pertinente a mi pregunta.
4 votos
Otra buena razón para utilizar polinomios ortogonales es la estabilidad numérica; la matriz de diseño asociada para el ajuste en la base monomial puede estar bastante mal condicionada para el ajuste de alto grado, ya que los monomios de orden superior son "muy casi linealmente dependientes" (un concepto que podría hacerse más preciso matemáticamente), mientras que la matriz de diseño para polinomios ortogonales se comporta un poco mejor. Discutí el caso de las abscisas equiespaciadas (Gram) aquí , pero el trato es similar en el caso no equispado.
0 votos
(No obstante, no se debe ajustar a polinomios de alto grado sin una buena razón para hacerlo).