20 votos

¿Se considera que una interpolación spline es un modelo no paramétrico?

Conozco las diferencias básicas entre no paramétrico y paramétrico estadísticas. En los modelos paramétricos, suponemos que los datos siguen una distribución y nos ajustamos a ella utilizando un número fijo de parámetros. Con KDE, por ejemplo, no es así porque no suponemos que la distribución modelada tenga una forma determinada.

Me pregunto qué relación tiene esto con la interpolación en general y con la interpolación spline en particular. ¿Se consideran no paramétricos todos los métodos de interpolación? ¿Existen métodos "mixtos"? ¿Qué ocurre con la interpolación spline?

22voto

GenericTypeTea Puntos 27689

Es una buena pregunta. Con frecuencia, las regresiones de suavizado (por ejemplo, splines, pero también GAM de suavizado, líneas continuas, LOWESS, etc.) se describen como regresión no paramétrica modelos.

Estos modelos son no paramétricos en el sentido de que su uso no implica cantidades declaradas como $\widehat{\beta}, \widehat{\theta}$ etc. (a diferencia de la regresión lineal, GLM, etc.). Los modelos de suavizado son formas extremadamente flexibles de representar propiedades de $y$ condicionada a uno o varios $x$ variables, y no haga a priori compromisos con, por ejemplo, la linealidad, el polinomio entero simple o formas funcionales similares que relacionen $y$ a $x$ .

Por otra parte, estos modelos son paramétricos, en el sentido matemático de que implican parámetros: número de splines, forma funcional de los splines, disposición de los splines, función de ponderación de los datos alimentados a los splines, etc. En la aplicación, sin embargo, estos parámetros no suelen tener un interés sustantivo: no son las pruebas más interesantes de las que informan los investigadores las curvas suavizadas (junto con los IC y las medidas de ajuste del modelo basadas en la desviación de los valores observados con respecto a las curvas) son los bits probatorios. Una motivación para este agnosticismo sobre los parámetros reales subyacentes a un modelo de suavizado es que los distintos algoritmos de suavizado tienden a dar resultados bastante similares (véase Buja, A., Hastie, T., & Tibshirani, R. (1989). Suavizadores lineales y modelos aditivos . Anales de Estadística , 17(2), 453-510 para una buena comparación de varios).

Si le he entendido bien, sus planteamientos "mixtos" son lo que se denominan "modelos semiparamétricos". Regresión de Cox es un ejemplo muy especializado de ello: la función de riesgo de referencia se basa en un estimador no paramétrico, mientras que las variables explicativas se estiman de forma paramétrica. Los GAM -modelos aditivos generalizados- nos permiten decidir qué $x$ efectos de las variables sobre $y$ que modelaremos utilizando suavizadores, que modelaremos utilizando especificaciones paramétricas y que modelaremos utilizando ambas en una única regresión.

4voto

jgradim Puntos 1143

En sentido estricto, todo modelo es paramétrico en el sentido de que tiene parámetros. Cuando hablamos de un "modelo no paramétrico", en realidad nos referimos a un modelo con un número de parámetros manejable.

La definición técnica de "no paramétrico" sólo dice "infinito o no especificado", pero en la práctica significa "infinito, o tan grande que pensar en términos de los parámetros se vuelve difícil de manejar y/o no útil". Pones el ejemplo de una KDE, pero una KDE se calcula a partir de los valores muestreados, y el número de muestras es finito, por lo que el conjunto de muestras es técnicamente un conjunto finito de parámetros.

Si cada spline tiene un número finito de parámetros, y hay un número finito de splines, entonces se deduce que el número total de parámetros es finito, pero en la práctica el número puede ser tan grande que no se trate como paramétrico.

Por otra parte, si el número de splines es lo suficientemente pequeño y los modelos dentro de los splines son lo suficientemente sencillos, aún se puede considerar que son paramétricos. Otros factores son si hay una gran colección de modelos con el mismo tipo de parámetros (es decir, los parámetros tienen valores diferentes, pero los parámetros de un modelo son análogos a los de otro), y lo intuitivo que es el significado de los parámetros.

Por ejemplo, si se modela el volumen de $H_2O$ como función de la temperatura, probablemente querrás splines separadas para hielo, agua y vapor. Si modelas cada uno como lineal con respecto a la temperatura, tendrás un coeficiente de expansión para cada fase (y probablemente también diferentes interceptos), lo que es un número de parámetros lo suficientemente pequeño como para ser considerado "paramétrico". También tendrás coeficientes de dilatación de sólidos, líquidos y gases para otras sustancias.

En este caso, el pequeño número de parámetros para una sustancia concreta, el gran número de sustancias que tienen ese tipo de parámetros y el significado directo de los parámetros (cuánto se expande la sustancia cuando la calientas) contribuyen a que probablemente se considere un modelo paramétrico.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X