43 votos

¿Cuál es exactamente la diferencia entre un modelo paramétrico y uno no paramétrico?

Estoy confundido con la definición de modelo no paramétrico después de leer este enlace Modelos paramétricos y no paramétricos y Responder a los comentarios de mi otra pregunta .

Originalmente pensé que "paramétrico vs no paramétrico" significa si tenemos supuestos de distribución en el modelo (similar a las pruebas de hipótesis paramétricas o no paramétricas). Pero ambos recursos afirman que "paramétrico o no paramétrico" puede determinarse por el número de parámetros del modelo en función del número de filas de la matriz de datos.

Para la estimación de la densidad del núcleo (no paramétrica) se puede aplicar dicha definición. Pero según esta definición, ¿cómo puede una red neuronal ser un modelo no paramétrico, ya que el número de parámetros del modelo depende de la estructura de la red neuronal y no del número de filas de la matriz de datos?

¿Cuál es exactamente la diferencia entre un modelo paramétrico y uno no paramétrico?

4 votos

Tenga en cuenta que "no paramétrico" en relación con los modelos de distribución (como en su referencia a las pruebas de hipótesis) se refiere al número de parámetros utilizados para definir la distribución ("paramétrico" = definido por un número fijo de parámetros; los métodos no paramétricos no tienen una distribución con un número fijo de parámetros - tienden a tener supuestos más leves, como la continuidad o la simetría).

0 votos

Mi opinión: aténgase a su definición. Es una definición sistemática, como deben ser las definiciones. La otra es inestable: primero hay que definir el "número de parámetros efectivos" de un algoritmo. Pero siempre he visto que esta cantidad se define caso por caso (es decir, tienes una definición para una regresión lineal, otra para el vecino más próximo, otra para las redes neuronales ). Así que, a menos que alguien pueda ofrecer una definición general y sistemática del número efectivo de parámetros, no puedo tomarme en serio esta definición.

3 votos

He encontrado el siguiente enlace, que contiene una buena explicación de los algoritmos de aprendizaje automático paramétricos y no paramétricos. machinelearningmastery.com/

36voto

generic_user Puntos 2269

En un modelo paramétrico, el número de parámetros es fijo con respecto al tamaño de la muestra. En un modelo no paramétrico, el número (efectivo) de parámetros puede crecer con el tamaño de la muestra.

En una regresión OLS, el número de parámetros será siempre la longitud de $\beta$ más uno por la varianza.

Una red neuronal con arquitectura fija y sin decaimiento de pesos sería un modelo paramétrico.

Pero si tiene decaimiento de peso, entonces el valor del parámetro de decaimiento seleccionado por validación cruzada generalmente se hará más pequeño con más datos. Esto puede interpretarse como un aumento del número efectivo de parámetros con el aumento del tamaño de la muestra.

2 votos

Sin embargo, el parámetro de caída de peso sigue siendo un parámetro adicional y no cambia (a menos que me equivoque) la estructura de la red. ¿Cómo puede interpretarse como un aumento del número de parámetros a medida que aumenta el tamaño de la muestra?

4 votos

El decaimiento del peso es un hiperparámetro. Lea aquí sobre los grados de libertad efectivos en la regularización: statweb.stanford.edu/~tibs/sta305files/Rudyregularization.pdf. Aunque las redes neuronales no son lineales, el decaimiento del peso realiza la misma función que una penalización cuadrática en estos modelos.

2 votos

Estoy (por supuesto) de acuerdo con la intuición de los parámetros efectivos, pero no estoy de acuerdo con utilizar esta noción para definir paramétrico/no paramétrico, véase mi comentario a la pregunta.

14voto

Sash_007 Puntos 16

Creo que hay que suprimir la palabra "eficaz" en la respuesta aceptada. Porque debido al diferente número de parámetros efectivos, como Aksakal señaló La respuesta aceptada implica que Ridge y Lasso son no paramétricos, pero no parece ser cierto. Los parámetros efectivos (grados de libertad efectivos) son características de un algoritmo de aprendizaje, pero no de un modelo en sí.

En un problema de aprendizaje automático tenemos tres cosas:

  1. Modelo de generación de datos. Describe nuestras suposiciones sobre la distribución probabilística que ha generado nuestros datos. De la estadística matemática sabemos que el modelo de generación de datos puede ser paramétrico o no paramétrico . Como Glen_b señaló En el modelo paramétrico de generación de datos, esta distribución está definida por un número fijo de parámetros. En el modelo no paramétrico de generación de datos no tenemos una distribución con un número fijo de parámetros, sino que tenemos suposiciones más suaves sobre ella, como la continuidad o la simetría.

  2. Algoritmo (hipótesis) . Es una función $h: \mathcal{X} \to \mathcal{Y}$ de algún espacio de hipótesis $\mathcal{H}$ . Esta función intenta predecir el verdadero valor objetivo en cualquier muestra $x$ . El espacio de hipótesis (modelo) puede ser paramétrico o no paramétrico.
    En el espacio de hipótesis paramétrico (modelo paramétrico) cada algoritmo está definido de forma única por un número fijo de parámetros (este número es el mismo para todos los algoritmos de este espacio). Ejemplos sencillos de modelos paramétricos son el modelo de regresión lineal: $\mathcal{H} = \{h(x;w,b) = \langle w, x \rangle + b \mid w \in \mathbb{R}^d, b \in \mathbb{R} \}$
    y un modelo de clasificación lineal (binario): $\mathcal{H} = \{h(x; w,b) = \mathrm{sign}(\langle w, x \rangle + b) \mid w \in \mathbb{R}^d, b \in \mathbb{R}\}$ .
    En los modelos no paramétricos no podemos describir cada algoritmo con el vector de parámetros del mismo tamaño constante para todos los algoritmos. Normalmente, el número de parámetros crece con el tamaño del conjunto de entrenamiento. Por ejemplo, en el caso de los árboles de decisión $\mathcal{H} = \{T(x; \Theta) \mid \Theta\}$ , donde $\Theta = \{J, \, \{R_j, \gamma_j\}_{j=1}^J\}$ es un vector de parámetros del árbol: $J$ es un número de nodos terminales en el árbol, $R_j$ son subregiones del espacio de entrada $\mathcal{X}$ correspondientes a estos nodos, y $\gamma_j$ son las predicciones en estos nodos. Los árboles pueden tener diferente número de hojas y diferente número de nodos internos, por lo que el espacio de los árboles de decisión es no paramétrico (dimensión de $\Theta$ será diferente para diferentes árboles, si los entrenamos en los conjuntos de datos generados a partir de la misma distribución, es decir, con el mismo número de características $d$ pero con diferente número de observaciones en cada conjunto de datos).

  3. Método (algoritmo de aprendizaje). Podemos formalizarlo como una función $\mu: D \to \mathcal{H}$ . Utiliza el conjunto de entrenamiento $D$ para ajustarse a alguna hipótesis $h \in \mathcal{H}$ . Si $\mathcal{H}$ es paramétrico llamamos $\mu$ método paramétrico. Si $\mathcal{H}$ es no paramétrico llamamos $\mu$ método no paramétrico. Por ejemplo, OLS, Ridge y Lasso son métodos paramétricos porque todos utilizan exactamente el mismo modelo paramétrico $\mathcal{H} = \{h(x;w,b) = \langle w, x \rangle + b \mid w \in \mathbb{R}^d, b \in \mathbb{R} \}$ (como he dicho antes, lo llamamos "modelo de regresión lineal"). A pesar de que estos métodos tienen un número diferente de parámetros efectivos.

Tenga en cuenta que podemos utilizar un modelo de generación de datos paramétrico y un algoritmo de aprendizaje no paramétrico (o viceversa). Por ejemplo, podemos tener un modelo de generación de datos gaussiano $Y = f(X) + \varepsilon$ , donde $\varepsilon \in \mathcal{N}(0, \sigma^2)$ . Obviamente, se trata de un modelo paramétrico de generación de datos. Pero siempre podemos ajustar un método no paramétrico (por ejemplo, la regresión kNN) en el conjunto de entrenamiento $D$ generado por este modelo.
Del mismo modo, podemos ajustar el método OLS paramétrico sin ninguna suposición paramétrica sobre el proceso de generación de datos. En este caso, este método simplemente no será equivalente a la estimación de máxima verosimilitud.


Hay una lista útil de métodos paramétricos y no paramétricos en el libro MLaPP de Murphy: enter image description here

Tenga en cuenta que la SVM no lineal (aparece en la tabla) es un método no paramétrico, mientras que la SVM lineal (no aparece en la tabla) es un método paramétrico porque se ajusta al modelo de clasificación lineal (clasificador lineal).

4 votos

Este blogpost de Sebastian Raschka confirma que el SVM lineal es un método paramétrico, mientras que el SVM kernel es no paramétrico. También contiene algunas buenas reflexiones sobre el tema de los modelos paramétricos frente a los no paramétricos, que me gustan mucho. En particular, tiene la siguiente cita del libro escrito en 1962: " Actualmente no se dispone de una definición precisa y universalmente aceptable del término "no paramétrico". ". Creo que esto sigue siendo cierto hoy en día.

0 votos

No estoy seguro de estar de acuerdo con que el clasificador SV (es decir, SVM con kernel lineal) sea "paramétrico". Usted podría tener un caso patológico en el que el número de vectores de soporte es el número de puntos de datos.

0voto

AlexG Puntos 17

Creo que si el modelo se define como un conjunto de ecuaciones (puede ser un sistema de ecuaciones concurrentes o una sola), y aprendemos sus parámetros, entonces es paramétrico. Eso incluye las ecuaciones diferenciales, e incluso la ecuación de Navier-Stokes. Los modelos definidos descriptivamente, independientemente de cómo se resuelvan, entran en la categoría de no paramétricos. Así, OLS sería paramétrico, e incluso la regresión cuantílica, aunque pertenece al dominio de la estadística no paramétrica, es un modelo paramétrico.

Por otra parte, cuando utilizamos el SEM (modelado de ecuaciones estructurales) para identificar el modelo, se trataría de un modelo no paramétrico, hasta que hayamos resuelto el SEM. El ACP sería paramétrico, porque las ecuaciones están bien definidas, pero el ACP puede ser no paramétrico, porque estamos buscando correlaciones entre todas las variables, y si éstas son correlaciones de Spearman, tenemos un modelo no paramétrico. Con las correlaciones de Pearson, implicamos un modelo paramétrico (lineal). Creo que los algoritmos de clustering serían no paramétricos, a menos que busquemos clusters de cierta forma.

Y luego tenemos la regresión no paramétrica, que es no paramétrica, y la regresión LOESS, que es paramétrica, pero sirve para lo mismo: definimos la ecuación y la ventana.

4 votos

Sus descripciones son bastante vagas y parecen contradecir el significado estadístico estándar de "paramétrico" y "no paramétrico". En particular, ha adoptado una postura inusual en relación con algunas técnicas concretas, como LOESS, que generalmente se considera no paramétrica: véase es.wikipedia.org/wiki/Regresión_local por ejemplo.

0 votos

@whuber ¡gracias por el enlace! Tienes razón: LOESS se considera no paramétrico. Lo cual es bastante contraintuitivo para mí. ¿Qué pasa con el suavizado exponencial? ¿Es no paramétrico porque el peso de cada punto es diferente? ¿O es paramétrico porque el alfa es el mismo para toda la serie temporal?

0 votos

En parámetros en situaciones paramétricas no cuentan necesariamente un montón de números. Se refieren a cómo se debe describir una familia de modelos estadísticos. Por ejemplo, cuando un procedimiento ajusta un único valor a los datos (tal vez mediante validación cruzada, tal vez por otros medios) pero asume únicamente que los datos son una muestra aleatoria de cualquier ese procedimiento no es paramétrico.

0voto

Lakshay Garg Puntos 418
  • Modelo paramétrico : asume que la población puede ser modelada adecuadamente por una distribución de probabilidad que tiene un conjunto fijo de parámetros.
  • Modelo no paramétrico : no hace ninguna suposición sobre alguna distribución de probabilidad al modelar los datos.

0 votos

SVM es un modelo paramétrico, pero no es en absoluto un modelo probabilístico (al menos en su definición clásica). Por lo tanto, SVM no asume ninguna distribución probabilística. Creo que hablas de modelo paramétrico / no paramétrico de generación de datos, pero el autor pregunta sobre algoritmos paramétricos / no paramétricos (como la red neuronal, que él señaló) y métodos, y no es lo mismo.

0 votos

* Me refiero a SVM lineal. En tu clasificación, debería ser un modelo no paramétrico, pero en los libros de texto y otras fuentes este modelo suele considerarse paramétrico.

0 votos

¿Podría proporcionarme fuentes fiables que afirmen que el LSVM es un modelo paramétrico que no asume ninguna distribución de probabilidad?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X