Cuando el entrenamiento de un modelo con parámetros (por ejemplo, para maximizar la probabilidad) a través de la estocástico de gradiente de la pendiente en algún conjunto de datos, se asume comúnmente que las muestras de formación se dibujan yo.yo.d. a partir de los datos de entrenamiento de distribución. Así que si el objetivo es un modelo de distribución conjunta $P(X,Y)$, luego de cada entrenamiento de la muestra $(x_i,y_i)$ debe ser dibujado yo.yo.d. de esa distribución.
Si el objetivo es lugar para un modelo condicional de distribución de $P(Y|X)$, entonces, ¿cómo la puedo.yo.d. el cambio en el requisito, en todo caso?
- Debemos todavía dibujar cada una de las muestras $(x_i,y_i)$ i.yo.d. a partir de la distribución conjunta?
- Debemos dibujar $x_i$ i.yo.d. de $P(X)$, a continuación, dibuje $y_i$ i.yo.d. de $P(Y|X)$?
- Podemos extraer $x_i$ no yo.yo.d. de $P(X)$ (por ejemplo, correlacionados a través del tiempo), a continuación, dibuje $y_i$ i.yo.d. de $P(Y|X)$?
Puede usted comentar sobre la validez de estos tres enfoques para estocástico de gradiente de la pendiente? (O me ayude a reformular la pregunta si es necesario).
Me gustaría hacer #3 si es posible. Mi aplicación es en el aprendizaje por refuerzo, en el que estoy usando parámetros modelo condicional como una política de control. La secuencia de los estados de $x_i$ es altamente correlacionadas, pero las acciones de $y_i$ son muestreados yo.yo.d. desde un punto de vista estocástico política acondicionado en el estado. La resultante de las muestras de $(x_i,y_i)$ (o un subconjunto de ellos) son usados para entrenar a la política. (En otras palabras, imaginar ejecución de una política de control por un largo tiempo en algún medio ambiente, la recopilación de un conjunto de datos de estado/acción muestras. Entonces, aunque los estados están correlacionados a través del tiempo, las acciones que se generan de forma independiente, condicionado por el estado.) Esto es algo similar a la situación en este documento.
Me encontré con un papel, Ryabko, 2006, "Reconocimiento de patrones para el Condicionalmente Independiente de los Datos," lo que al principio parecía relevante; sin embargo, la situación se invierte a partir de lo que necesito, donde $y_i$ (la etiqueta de/categoría/acción) se puede dibujar no soy yo.yo.d de $P(Y)$, e $x_i$ (el objeto/patrón/estado) es dibujado yo.yo.d. de $P(X|Y)$.
Actualización: Dos artículos (aquí y aquí) que se menciona en el Ryabko papel parece relevante aquí. Se supone que la $x_i$ provienen de un proceso arbitrario (por ejemplo, iid, posiblemente no estacionarios). Ellos muestran que el vecino más cercano y núcleo de los estimadores son consistentes en este caso. Pero estoy más interesado en saber si una estimación basada en el estocástico gradiente de la pendiente es válido en esta situación.