5 votos

¿Es el kriging adecuado para los problemas de regresión de alta dimensión?

Me gustaría señalar que soy nuevo en este campo, así que si no soy claro, por favor, perdóname (y corrígeme).

He creado un DoE (Diseño de Experimento) con 11 entradas y 121 carreras. Utilicé un STOA (Strength-Two Orthogonal Array) para rellenar el dominio y realicé mi prueba. He medido 5 salidas , por lo que al final tengo un 121x11 matriz de entrada y un 121x5 matriz de salida. Mi tarea es generar un RSM (Response Surface Model) a partir de estos datos y actualmente estoy utilizando el algoritmo de kriging pero no obtengo buenos resultados en términos de precisión (el RMSE (Root Mean Square Error) es bastante alto).

Mis preguntas son:

  1. dado que el kriging proviene de aplicaciones geoestadísticas, ¿es correcto decir que funciona bien sólo con espacios 2D o 3D y que pierde su precisión con espacios de alta dimensión? ¿Por qué o por qué no?
  2. Dado mi conjunto de entrenamiento, ¿cómo puedo elegir el mejor algoritmo que se ajuste a mi RSM?

EDIT1: @whuber - Tengo sus preocupaciones. La verdad es que tengo alguna carencia sobre el análisis de datos y quiero investigarlo. ¿Por dónde puedo empezar? ¿Conoces algunos libros o sitios web?

EDIT2: @GeoMatt22 -

  1. Realicé una validación cruzada de tipo "Leave-One-Out" y tracé el gráfico real frente al predicho. Para algunas salidas la distribución de los puntos es bastante dispersa y el RMSE es alto. Supongo que debería hacer un análisis de los datos. ¿Qué debería mirar? ¿Varianza de los datos? ¿Covarianza?
  2. El objetivo es la optimización.

EDIT3: @David Kozak - Gracias por tus observaciones. Voy a echar un vistazo a la Rasmussen y Williams.

2voto

richcollins Puntos 514

Podría investigar la regresión de procesos gaussianos... Kriging es el nombre utilizado para los procesos gaussianos en la estadística espacial, y es el ámbito en el que más se han utilizado hasta hace relativamente poco. Hay un excelente libro disponible gratuitamente en línea de Rasmussen y Williams sobre el tema.

Sin saber más sobre su problema o sus datos, sería difícil sugerirle dónde buscar en cuanto a algoritmos estándar. Sugeriría que 121 observaciones son muy pocas para tantas dimensiones sin una fuerte comprensión previa de cuáles deberían ser los valores de tus parámetros, así que quizás asegúrate de que son todos necesarios, y prueba algún tipo de selección de características o reducción de dimensiones si no lo son.

2voto

Ben Puntos 101

Estoy completamente de acuerdo con la respuesta de David Kozak, pero me gustaría aportar algunos puntos adicionales:

11 entradas no es demasiado alta para la regresión del proceso gaussiano (GPR)/Kriging. Ya he tratado problemas con una docena de variables con éxito utilizando GPR

121 observaciones es, de hecho, bastante pequeño, y la segunda preocupación sobre el conjunto de datos de entrenamiento es que ha sido creado con un Orthogonal Array (OA). Si bien son adecuados para la regresión lineal, no lo son para el GPR. Los GPR con núcleos estacionarios (los más comunes y sencillos) utilizan las distancias entre los puntos del conjunto de entrenamiento y necesitan tanta diversidad en estas distancias, pero los OA tienen pocas distancias en comparación con un diseño aleatorio del mismo tamaño. Cuando se utiliza el GPR, es mejor utilizar el muestreo de hipercubos latinos o el diseño aleatorio.

Pero supongo que no se puede cambiar el diseño del experimento... Como Kriging puede dar resultados decepcionantes, le aconsejo que pruebe métodos más sencillos como regresión lineal, GAM ... Los bosques aleatorios (o, más sencillamente, un árbol de decisión) también podrían dar resultados interesantes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X