12 votos

¿Es la única diferencia entre los modelos generativos condicionales y los modelos discriminativos la complejidad de la distribución modelada?

Una forma común de definir modelos discriminatorios es que modelan $P(Y|X)$, donde $Y$ es la etiqueta, y $X$ son las variables observadas. Los modelos generativos condicionales hacen algo bastante similar, pero la distribución modelada de $Y$ tiende a ser más compleja -- por ejemplo, $Y$ podría ser una distribución de imágenes, donde la variable de condicionamiento $X$ podría ser la clase de imagen. Por lo general, es bastante intuitivo si un modelo es discriminativo o generativo condicional, pero en algunos casos parece bastante poco claro, así que me pregunto: ¿es la distinción entre los dos puramente arbitraria?

Aquí hay una lista de modelos de $P(Y|X)$ para diferentes $Y$ y $X$, enumerados en orden de "generatividad" creciente

  1. Un modelo de segmentación semántica (una red convolucional) que produce una distribución sobre clases para cada píxel en una imagen.

  2. Una red convolucional que regresa una profundidad monocular densa -- produciendo una distribución normal sobre las profundidades para cada píxel en una imagen.

  3. Igual que el 4, pero sin ruido de condicionamiento en el generador.

  4. Un GAN que produce profundidad monocular densa a partir de una entrada RGB, utilizando tanto la pérdida típica del GAN como una pérdida de regresión.

  5. Un modelo cycleGAN que te permite muestrear de la distribución $Y|X$, donde $X$ es una imagen, y $Y$ es una interpretación de esa imagen en el estilo de una pintura de Monet.

  6. Un modelo de GAN condicional que genera una imagen fotorrealista de cualquier clase de animal (siendo la etiqueta del animal la variable de condicionamiento).

Creo que casi todo el mundo está de acuerdo en que 1 y 6 son discriminatorios y generativos condicionales respectivamente. Lo mismo para 2 y 5 respectivamente, pero la justificación es menos clara. Por último, para 3 y 4, me resulta bastante poco claro cómo deberían ser clasificados. 3 modela una distribución menos compleja sobre mapas de profundidad densa debido a la falta de ruido de condicionamiento, y se inclina hacia el lado discriminatorio, y viceversa para 4.

Entonces: 1: ¿Hay una distinción clara entre modelos discriminatorios y generativos condicionales? 2: ¿Es solo alguna función arbitraria de lo compleja que es la distribución modelada? 3: Si existe una buena definición, ¿cómo clasificaría los modelos anteriores?

1 votos

0. Buena pregunta (+1) 1. Creo que especialmente con GANs los límites se vuelven bastante borrosos. 2. stats.stackexchange.com/questions/12421 y stackoverflow.com/questions/879432 ofrecen un contexto adicional.

5voto

Ludwi Puntos 188

En el aprendizaje automático, a veces los términos "generativo" y "discriminativo" se confunden con "no supervisado" y "supervisado". Alguien que solo lea documentos de aprendizaje profundo también puede llegar a creer que los modelos generativos "generan" imágenes, texto o audio y los modelos discriminativos asignan etiquetas. Pero así no es como se definieron y utilizaron estos términos antes de la llegada de GANs y VAEs.

Un modelo generativo asigna una distribución de probabilidad conjunta a todas las variables involucradas, aunque en última instancia solo nos importe una distribución condicional o marginal. Ejemplos clásicos de modelos generativos incluyen el clasificador ingenuo de Bayes y la asignación latente de Dirichlet. El Naive Bayes es supervisado y generalmente se aplica a datos muy simples, por lo que la complejidad de los datos no importa en absoluto. Y ninguno de estos modelos fue diseñado para generar entradas. De hecho, sus suposiciones de independencia condicional hacen que no sean eficaces en este aspecto.

Un modelo discriminativo o condicional asigna una probabilidad condicional a un conjunto de variables dado otro conjunto de variables. A veces los modelos discriminativos se entrenan de manera no supervisada, ver agrupamiento discriminativo.

Términos más generales que engloban ambos son "modelo probabilístico" o "modelo estadístico", que puede referirse a cualquier colección de distribuciones de probabilidad. Utilizamos "generativo" y "discriminativo" para comunicar rápidamente algunas propiedades generales de un modelo probabilístico. Otros especificadores incluyen "paramétrico", "no paramétrico" y "gráfico".

La frase más reciente "generativo condicional" sugiere que estamos condicionando a una variable, como en la modelización discriminativa, pero que también estamos modelando distribuciones que en realidad no son de interés en el momento de la prueba, como en la modelización generativa. Por ejemplo, al entrenar un GAN condicional para generar imágenes $x$ a partir de ruido $z$ y una etiqueta $c$, $p(x, z \mid c)$, probablemente solo nos importa $p(x \mid c)$ en el momento de la prueba. Pero para ser coherente con las definiciones de "generativo" y "discriminativo", propongo que la complejidad o el tipo de datos no deberían importar al decidir si algo es "condicionalmente generativo" o no.

Usando estas definiciones, asignaríamos etiquetas de la siguiente manera:

  1. discriminativo
  2. discriminativo, ya que el tipo de datos o distribución no importa
  3. discriminativo, ya que solo estás modelando condicionalmente variables de interés
  4. generativo condicional, ya que modelas variables auxiliares; la pérdida que uses para entrenar un modelo no importa
  5. discriminativo, la complejidad o el tipo de datos, o la forma en que entrenas tu(s) modelo(s) no importan
  6. generativo condicional

Señalo una nota de Minka (2005) y un documento de Bishop & Lasserre (2007) que proporcionan definiciones más precisas pero más específicas y una visión unificada de modelos generativos y discriminativos que puede aclarar aún más las cosas.

Finalmente, cabe destacar que el término "modelo" es ambiguo y puede referirse tanto a una familia de distribuciones como a una instancia de dicha familia. Por ejemplo, el "modelo entrenado" $p_{\theta}$ con valores de parámetro particulares es una instancia de un modelo paramétrico, $\{ p_\theta : \theta \in \mathbb{R}^N \}$. Para complicar aún más las cosas, la terminología de aprendizaje automático fusiona modelos con procedimientos de ajuste. Nota que los VAEs y GANs (y la ICA no lineal y otros) se refieren esencialmente al mismo modelo (si asumimos un $\sigma$ muy pequeño),

$$\mathcal{N}(z; 0, I)\mathcal{N}(x; f_\theta(z); \sigma^2 I),$$

sin embargo, a menudo hablamos de ellos como "modelos" diferentes porque se optimizan de manera diferente.

0 votos

"Usamos "generativo" y "discriminativo" para comunicar rápidamente algunas propiedades generales de un modelo probabilístico." ¿Pero qué significa realmente? Según tu publicación, ¿significa que generativo se refiere a distribución de probabilidad conjunta y discriminativo se refiere a condicional? ¿Es correcto?

0 votos

Sí, eso es prácticamente todo

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X