19 votos

Número mínimo de muestras para la interpolación de kriging

Obtengo algunos datos con el número de especímenes con una petición de interpolarlos usando el método de kriging.
Después de algunas investigaciones, parece que los resultados del kriging (realizado en el Analista Geoestadístico de ArcGIS con parámetros por defecto) no son satisfactorios. Los valores interpolados son muy diferentes de las mediciones (especialmente las de arriba) y la superficie no parece fiable. Aquí está la imagen: enter image description here
Supongo que el principal problema es el número insuficiente de muestras.

¿Cuántos puntos debemos usar para obtener resultados fiables?
¿O tal vez el método de kriging no es apropiado para valores tan diversos?

0 votos

Dijiste que "Aunque la gente ha tenido éxito en el kriging de tan sólo siete puntos de datos (en una monografía de Robert Jernigan publicada por la EPA de EE.UU. a finales de los años 80),...". Pero no puedo encontrar este artículo. ¿Puedes dar una dirección abierta para este artículo? Gracias...

30voto

cjstehno Puntos 131

Cuando usas "valores por defecto" no estás realmente haciendo kriging, sólo estás aplicando el algoritmo de kriging, que como has comprobado, es pobre cuando se usa con estos datos.

(Voy a subirme a una tribuna para despotricar brevemente: en mi opinión, la forma más rápida de obtener malos resultados con un programa informático es aceptar sus parámetros por defecto. ArcGIS es uno de los entornos más ricos y poderosos para obtener malos resultados de esta manera. La moraleja es no utilices el software para trabajos importantes hasta que no sepas cómo controlarlo. Ahora, baja de la tribuna...)

Para que el kriging funcione hay que realizar un intenso análisis estadístico previo de los datos conocido como "variografía". El resultado final depende de los datos y de los conocimientos geoestadísticos. (Se han escrito libros enteros sobre la variografía, entre ellos el seminal Geoestadística minera por Journel & Huijbregts y Variowin por Yvan Pannatier). Aunque se han realizado con éxito krigeos de hasta siete puntos de datos (en una monografía de Robert Jernigan publicada por la EPA de EE.UU. a finales de la década de 1980), y en principio se pueden realizar krigeos con sólo dos o tres puntos (yo he hecho esto para demostrar el algoritmo ), las reglas generales en la literatura van desde un mínimo de 20 puntos hasta 100 puntos y el consenso parece estar en torno a los 30 puntos.

En tu caso -aunque no describes los datos- tienes algunos problemas claros, incluyendo una distribución muy sesgada y una clara falta de evidencia de estacionariedad. Esto requiere un tratamiento estadístico especial o formas especializadas de kriging (como un modelo lineal generalizado espacial). No se obtendrán buenos resultados al realizar el kriging de estos datos hasta que se disponga de una gran cantidad de datos.

La leyenda sugiere que podría estar tratando de crear un densidad en lugar de interpolar los datos: aunque los resultados de ambos procedimientos parezcan iguales, hacen cosas muy distintas y tienen interpretaciones muy diferentes. Usted interpolar cuando se consideran los datos muestras de una hipotética superficie continua. La interpolación predice los valores no muestreados. Los ejemplos estándar incluyen las mediciones de elevación (que muestrean la superficie de la tierra) y las mediciones de temperatura (que muestrean un "campo de temperatura"). Se calcula un densidad cuando se tiene completa información sobre el cantidad de algo y se desea representar una versión suavizada de esa cantidad por unidad de superficie. (A diferencia de la interpolación, no existen valores no muestreados para predecir). El ejemplo estándar es la densidad de población: los datos son recuentos de todo individuos dentro de un área; el resultado es un mapa de la densidad de población.

6 votos

Gran respuesta @whuber. Sin embargo, ¿el número mínimo de puntos no depende también parcialmente de la extensión del dominio espacial y del grano deseado de la predicción? Si lo reduces a una cuestión de muestreo, entonces se convierte en una cuestión de capturar la población y la variación espacial en la muestra.

0 votos

@Jeffrey En parte es así. La cantidad de datos influye en dos cosas: la varianza de la predicción de kriging (que varía a lo largo del dominio espacial) y la precisión con la que se puede estimar el propio variograma. Esto último se suele pasar por alto, especialmente en los tratamientos tradicionales del kriging: es una especie de elefante en la habitación. Si se conozca el variograma correcto y tiene una pequeña relación pepita/espiga y un gran rango en relación con la extensión del dominio espacial, se puede krigear con muy pocos datos, especialmente si muestrean adecuadamente todo el rango de valores de los datos.

3 votos

Estoy convencido de que cualquiera que utilice el kriging debería tener un buen curso de geoestadística o una sólida formación en SIG/estadística. Aprender a modelar correctamente un semivariograma requiere cierta habilidad.

1voto

Antti Huima Puntos 15465

Hay dos cuestiones separadas, en primer lugar el número de ubicaciones de los datos que hay que utilizar para estimar/modelar el variograma y en segundo lugar el número de ubicaciones de los datos que hay que utilizar en las ecuaciones de kriging para interpolar el valor en una ubicación que no es de los datos (o para estimar el valor medio en una región). Suponiendo que se utilice un vecindario de búsqueda en movimiento, más de 15-20 ubicaciones de datos en el vecindario probablemente degradarán los resultados porque (1) sólo las ubicaciones de datos más cercanas en el vecindario de búsqueda tendrán pesos distintos de cero, (2) con más ubicaciones de datos el tamaño de la matriz a invertir es mayor y la posibilidad de una matriz mal condicionada aumenta. El número total de ubicaciones de datos que se necesitan para el kriging depende del número de ubicaciones que hay que interpolar y de los patrones espaciales de esos puntos y también de las ubicaciones de los datos. En resumen, no hay una respuesta sencilla a su pregunta.

Con respecto a la estimación/modelación del variograma es un problema muy diferente, véase por ejemplo

1991, Myers,D.E., On Variogram Estimation en Proceedings of the First Inter. Conf. Stat. Comp., Cesme, Turquía,

30 mar.-2 abril 1987, Vol II, American Sciences Press, 261-281

1987, A. Warrick y D.E. Myers, Optimization of Sampling Locations for Variogram Calculations Water Resources Research 23, 496-500

Pueden descargarse en www.u.arizona.edu/~donaldm

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X