3 votos

validación de un proceso gaussiano ajustado a datos

Soy relativamente nuevo en la aplicación de procesos gaussianos a los datos. Tengo formación matemática, pero la bibliografía más difundida sobre el tema parece proceder de una perspectiva de aprendizaje automático y no de una perspectiva de procesos estocásticos/teoría de la medida.

De todos modos, me piden que ajuste un proceso gaussiano a los datos, es decir $$GP(x) \sim N(\mu(x),\sigma^2(x)).$$ El modelo en el que se basan los datos supone que para $x_1 \neq x_2$ , $GP(x_1)$ y $GP(x_2)$ son independientes. Además, especificamos formas paramétricas para $\mu(x),\sigma^2(x)$ . Estas formas paramétricas se proporcionan ya que tenemos restricciones sobre cómo se comportan la media y la varianza a través de $x$ .

Tengo datos de entrenamiento y datos de validación -- muestras de $(x_i,GP(x_i))$ para $i=1,\dots,N$ para la formación y muestras de $(x_j,GP(x_j))$ para $j=1,\dots,M$ para una validación distinta de la formación.

Utilizando los datos de entrenamiento, formulo la verosimilitud logarítmica negativa (sólo el producto de las fdp) y utilizo el MLE para obtener los parámetros necesarios para las funciones de media y varianza anteriores.

Ahora, quiero evaluar la validez de mi modelo para $\mu(x)$ y $\sigma^2(x)$ tomando cada muestra del conjunto de validación, aplicando la transformación $\frac{GP(x_j) - \mu(x_j)}{\sigma(x_j)}$ y trazar el histograma para ver si es $N(0,1)$ .

Hasta ahora no he conseguido que el histograma tenga un aspecto agradable y se ajuste al pdf de N(0,1). Mi pregunta es: ¿es realista esperar que uno puede realmente encontrar formas paramétricas para $\mu(x),\sigma^2(x)$ ¿para "validar" el uso de un Proceso de Gauss para ajustar los datos? En primer lugar, ¿cómo se comprueba siquiera si se puede aplicar a los datos un Proceso de Gauss de cualquier tipo? (Mi conjunto de datos toma valores positivos y negativos, así que ese es un primer paso).

1voto

wolxXx Puntos 31

... ¿es realista esperar que se puedan encontrar formas paramétricas para $\mu(x)$ , $\sigma^2 (x)$ ¿para "validar" el uso de un proceso de Gauss para ajustar los datos?

Sí, si por "validar" entiendo crear un modelo que se ajuste a los datos. Digamos que todas mis observaciones tienen valores diferentes para las covariables, entonces siempre es posible diseñar una función media "a priori" que se aproxime arbitrariamente a todos los valores de respuesta observados.

Si pretende utilizar este modelo para realizar inferencias estadísticas o predicciones, sería una mala idea por razones obvias.

¿Cómo se comprueba siquiera si se puede aplicar a los datos un proceso gaussiano de cualquier tipo?

En ausencia de datos, basta con saber si se pueden transformar las covariables en números y la respuesta en números reales, es decir, si las covariables tienen una dimensión finita y la respuesta es un escalar. Sin embargo, no estoy seguro de que realmente estés preguntando esto, ya que tus preguntas han surgido después de realizar la comprobación del modelo.

Algunos conocimientos sobre el tema son útiles a la hora de comprobar el modelo (por ejemplo, si el modelo ajustado es plausible o útil) pero, aunque yo lo habría enfocado de otra forma, lo que usted ha hecho utilizando una muestra de reserva es razonable. En general, también se podría comprobar si la muestra de reserva sigue (aproximadamente) la distribución normal multivariante ajustada y, además, se podría realizar una validación cruzada más amplia. Sin embargo, su comprobación por sí sola ha detectado un problema que hay que investigar; quizá pueda proporcionarnos más información para ayudarnos a diagnosticar el problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X