44 votos

Las pruebas del calentamiento global provocado por el hombre alcanzan el "estándar de oro": ¿cómo lo hicieron?

Este mensaje en un artículo de Reuter's del 25.02.2019 está actualmente en todas las noticias:

Las pruebas del calentamiento global provocado por el hombre alcanzan el "estándar de oro

[Los científicos] dijeron que la confianza en que las actividades humanas estaban aumentando el calor en la superficie de la Tierra había alcanzado un nivel de "cinco sigmas", un indicador estadístico que significa que sólo hay una posibilidad entre un millón de que la señal apareciera si no hubiera calentamiento.

Creo que se refiere a este artículo "Celebración del aniversario de tres acontecimientos clave en la ciencia del cambio climático" que contiene una trama, que se muestra esquemáticamente a continuación (Es un boceto porque no pude encontrar una imagen de código abierto para un original, se encuentran imágenes libres similares aquí ). Otro artículo del mismo grupo de investigación, que parece ser una fuente más original, es aquí (pero utiliza una significación del 1% en lugar de $5\sigma$ ).


El gráfico presenta mediciones de tres grupos de investigación diferentes: Remote Sensing Systems, el Center for Satellite Applications and Research y la Universidad de Alabama en Huntsville.

El gráfico muestra tres curvas ascendentes de la relación señal/ruido en función de la longitud de la tendencia.

anthropogenic signal

Así que, de alguna manera, los científicos han medido una señal antropogénica de calentamiento global (¿o cambio climático?) en un $5\sigma$ nivel, que aparentemente es algo estándar científico de las pruebas .

Para mí este gráfico, que tiene un alto nivel de abstracción, plantea muchas preguntas $^{\dagger}$ y en general me pregunto sobre la cuestión "¿Cómo han hecho esto? . ¿Cómo explicamos este experimento en palabras sencillas (pero no tan abstractas) y también explicamos el significado de la $5\sigma$ ¿nivel?

Hago esta pregunta aquí porque no quiero una discusión sobre el clima. En cambio, quiero respuestas sobre el contenido estadístico y, sobre todo, que se aclare el que significa de tal declaración que está usando/reclamando $5 \sigma$ .


$^\dagger$ ¿Cuál es la hipótesis nula? ¿Cómo han preparado el experimento para obtener una antropogénico señal? ¿Cuál es el efecto tamaño de la señal? ¿Es sólo una pequeña señal y sólo la medimos ahora porque el ruido está disminuyendo, o la señal está aumentando? ¿Qué tipo de suposiciones se hacen para crear el modelo estadístico por el que determinan el cruce de un umbral de 5 sigmas (independencia, efectos aleatorios, etc...)? ¿Por qué las tres curvas de los distintos grupos de investigación son diferentes, tienen diferente ruido o tienen diferentes señales, y en el caso de estas últimas, qué significa eso en cuanto a la interpretación de la probabilidad y la validez externa?

28voto

zowens Puntos 1417

Advertencia: NO soy un experto en climatología, no es mi campo. Por favor, tenedlo en cuenta. Se aceptan correcciones.


La cifra a la que se refiere proviene de un documento reciente Santer et al. 2019, Celebración del aniversario de tres eventos clave en la ciencia del cambio climático de Naturaleza Cambio climático . No se trata de un trabajo de investigación, sino de un breve comentario. Esta figura es una actualización simplificada de una figura similar de un Ciencia de los mismos autores, Santer et al. 2018, Influencia humana en el ciclo estacional de la temperatura troposférica . Aquí está la cifra de 2019:

enter image description here

Y aquí está la cifra de 2018; el panel A corresponde a la de 2019:

enter image description here

Aquí intentaré explicar el análisis estadístico que hay detrás de esta última figura (los cuatro paneles). El Ciencia El artículo es de libre acceso y bastante legible; los detalles estadísticos están, como de costumbre, ocultos en los Materiales Suplementarios. Antes de hablar de las estadísticas como tales, hay que decir unas palabras sobre los datos de observación y las simulaciones (modelos climáticos) utilizados aquí.


1. Datos

Las abreviaturas RSS, UAH y STAR, se refieren a las reconstrucciones de la temperatura troposférica a partir de las mediciones por satélite. La temperatura de la troposfera se vigila desde 1979 mediante satélites meteorológicos: ver Wikipedia sobre las mediciones de temperatura de la MSU . Desgraciadamente, los satélites no miden directamente la temperatura; miden algo más, de lo que se puede deducir la temperatura. Además, se sabe que sufren diversos sesgos dependientes del tiempo y problemas de calibración. Esto hace que la reconstrucción de la temperatura real sea un problema difícil. Varios grupos de investigación realizan esta reconstrucción, siguiendo metodologías algo diferentes, y obteniendo resultados finales algo distintos. RSS, UAH y STAR son estas reconstrucciones. Citando a Wikipedia,

Los satélites no miden la temperatura. Miden las radiancias en varias bandas de longitud de onda, que luego hay que invertir matemáticamente para obtener inferencias indirectas de la temperatura. Los perfiles de temperatura resultantes dependen de los detalles de los métodos que se utilizan para obtener las temperaturas a partir de las radiancias. Por ello, los diferentes grupos que han analizado los datos de los satélites han obtenido diferentes tendencias de temperatura. Entre estos grupos se encuentran Remote Sensing Systems (RSS) y la Universidad de Alabama en Huntsville (UAH). La serie de satélites no es totalmente homogénea: el registro se construye a partir de una serie de satélites con una instrumentación similar pero no idéntica. Los sensores se deterioran con el tiempo, y es necesario hacer correcciones por la deriva de los satélites en órbita. Las diferencias especialmente grandes entre las series de temperatura reconstruidas se producen en los pocos momentos en que hay poco solapamiento temporal entre los sucesivos satélites, lo que dificulta la intercalibración.

Hay un gran debate sobre qué reconstrucción es más fiable. Cada grupo actualiza sus algoritmos de vez en cuando, cambiando toda la serie temporal reconstruida. Por eso, por ejemplo, el RSS v3.3 difiere del RSS v4.0 en la figura anterior. En general, AFAIK está bien aceptado en el campo que las estimaciones de la temperatura global de la superficie son más precisa que las mediciones de los satélites. En cualquier caso, lo que importa para esta cuestión es que hay varias estimaciones disponibles de la temperatura troposférica espacialmente resuelta, desde 1979 hasta ahora, es decir, en función de la latitud, la longitud y el tiempo.

Denotemos dicha estimación por $T(\mathbf x, t)$ .

2. Modelos

Hay varios modelos climáticos que se pueden ejecutar para simular la temperatura troposférica (también en función de la latitud, la longitud y el tiempo). Estos modelos toman como entrada la concentración de CO2, la actividad volcánica, la irradiación solar, la concentración de aerosoles y otras influencias externas, y producen la temperatura como salida. Estos modelos pueden ejecutarse para el mismo periodo de tiempo (1979-actualidad), utilizando las influencias externas realmente medidas. Los resultados se pueden promediar para obtener el resultado medio del modelo.

También se pueden ejecutar estos modelos sin introducir los factores antropogénicos (gases de efecto invernadero, aerosoles, etc.), para hacerse una idea de las predicciones de los modelos no antropogénicos. Hay que tener en cuenta que todos los demás factores (solar/volcánico/etc.) fluctúan en torno a sus valores medios, por lo que el resultado del modelo no antropogénico es estacionario por construcción. En otras palabras, los modelos no permiten que el clima cambie de forma natural, sin ninguna causa externa específica.

Denotemos el resultado medio del modelo antropogénico por $M(\mathbf x,t)$ y el resultado medio del modelo no antropogénico por $N(\mathbf x, t)$ .

3. Huellas dactilares y $z$ -estadística

Ahora podemos empezar a hablar de estadísticas. La idea general es observar la similitud de la temperatura troposférica medida $T(\mathbf x, t)$ es a la salida del modelo antropogénico $M(\mathbf x, t)$ en comparación con los resultados del modelo no antropogénico $N(\mathbf x, t)$ . Se puede cuantificar la similitud de diferentes maneras, correspondientes a diferentes "huellas" del calentamiento global antropogénico.

Los autores consideran cuatro huellas digitales diferentes (correspondientes a los cuatro paneles de la figura anterior). En cada caso, convierten las tres funciones definidas anteriormente en valores anuales $T(\mathbf x, i)$ , $M(\mathbf x, i)$ y $N(\mathbf x, i)$ , donde $i$ indexa años desde 1979 hasta 2019. Aquí están los cuatro valores anuales diferentes que utilizan:

  1. Media anual: simplemente la temperatura media de todo el año.
  2. Ciclo estacional anual: la temperatura de verano menos la de invierno.
  3. Media anual con la media global restada: igual que (1) pero restando la media global de cada año en todo el mundo, es decir, en $\mathbf x$ . El resultado tiene media cero para cada $i$ .
  4. Ciclo estacional anual con la media global restada: igual que (2) pero restando de nuevo la media global.

Para cada uno de estos cuatro análisis, los autores toman la correspondiente $M(\mathbf x, i)$ y hacer el ACP a través de los puntos de tiempo, y obtener el primer vector propio $F(\mathbf x)$ . Es básicamente un patrón 2D de cambio máximo de la cantidad de interés según el modelo antropogénico.

A continuación, proyectan los valores observados $T(\mathbf x, i)$ en este patrón $F(\mathbf x)$ es decir, calcular $$Z(i) = \sum_\mathbf x T(\mathbf x, i) F(\mathbf x),$$ y encontrar la pendiente $\beta$ de la serie temporal resultante. Será el numerador de la $z$ -("relación señal/ruido" en las cifras).

Para calcular el denominador, utilizan un modelo no antropogénico en lugar de los valores realmente observados, es decir, calculan $$W(i) = \sum_\mathbf x N(\mathbf x, i) F(\mathbf x),$$ y volver a encontrar su pendiente $\beta_\mathrm{noise}$ . Para obtener la distribución nula de las pendientes, ejecutan los modelos no antropogénicos durante 200 años, cortan los resultados en trozos de 30 años y repiten el análisis. La desviación estándar de la $\beta_\mathrm{noise}$ forma el denominador del $z$ -Estadística:

$$z = \frac{\beta}{\operatorname{Var}^{1/2}[\beta_\mathrm{noise}]}.$$

Lo que se ve en los paneles A--D de la figura anterior son estos $z$ para los diferentes años finales del análisis.

La hipótesis nula aquí es que la temperatura fluctúa bajo la influencia de aportes solares/volcánicos/etc. estacionarios sin ninguna deriva. El alto $z$ indican que las temperaturas troposféricas observadas no son consistentes con esta hipótesis nula.

4. Algunos comentarios

La primera huella (panel A) es, en mi opinión, la más trivial. Simplemente significa que las temperaturas observadas crecen monótonamente mientras que las temperaturas bajo la hipótesis nula no lo hacen. No creo que se necesite toda esta complicada maquinaria para llegar a esta conclusión. La serie temporal de la temperatura media global de la troposfera inferior (variante RSS) se ve así :

enter image description here

y claramente hay una tendencia muy significativa aquí. No creo que se necesite ningún modelo para verlo.

La huella digital del panel B es algo más interesante. Aquí se resta la media global, por lo que el $z$ -no son impulsados por el aumento de la temperatura, sino por los patrones espaciales del cambio de temperatura. De hecho, es bien sabido que el hemisferio norte se calienta más rápido que el sur (puede comparar los hemisferios aquí: http://images.remss.com/msu/msu_time_series.html ), y esto es también lo que arrojan los modelos climáticos. El panel B se explica en gran medida por esta diferencia interhemisférica.

La huella dactilar del panel C es posiblemente aún más interesante, y fue el verdadero objetivo del artículo de Santer et al. 2018 (recordemos su título: "Influencia humana en el ciclo estacional de la temperatura troposférica", énfasis añadido). Como se muestra en la figura 2 del documento, los modelos predicen que la amplitud del ciclo estacional debería aumentar en las latitudes medias de ambos hemisferios (y disminuir en otros lugares, en particular sobre la región del monzón indio). Esto es lo que ocurre en los datos observados, lo que da lugar a una elevada $z$ -El panel D es similar al C porque aquí el efecto no se debe al aumento global sino al patrón geográfico específico.


P.D. La crítica específica en judithcurry.com que has enlazado arriba me parece bastante superficial. Plantean cuatro puntos. El primero es que estos gráficos sólo muestran $z$ -pero no el tamaño del efecto; sin embargo, al abrir Santer et al. 2018 uno encontrará todas las demás figuras que muestran claramente los valores de la pendiente real, que es el tamaño del efecto de interés. La segunda no la he entendido; sospecho que es una confusión por su parte. El tercero es sobre el sentido de la hipótesis nula; es bastante justo (pero fuera de tema en CrossValidated). El último desarrolla algún argumento sobre las series temporales autocorrelacionadas, pero no veo cómo se aplica al cálculo anterior.

26voto

No siempre se trata de pruebas estadísticas. También puede tratarse de la teoría de la información.

El término 5σ es lo que dice que es: una relación entre "señal" y "ruido". En las pruebas de hipótesis tenemos una estimación de un parámetro de la distribución, y el error estándar de la estimación. La primera es una "señal", la segunda es "ruido", y la relación de las estadísticas y su error estándar es la estadística z, la estadística t, la estadística F, lo que sea.

Sin embargo, relación señal/ruido es útil en todos los casos en los que recibimos/percibimos alguna información a través de algún ruido. Como explica el enlace citado

La relación señal/ruido (a menudo abreviada como SNR o S/N) es una medida utilizada en ciencia e ingeniería para cuantificar el grado de corrupción de la señal por el ruido.

En nuestro caso, la "señal" es el cambio real medido en la temperatura de algunos estratos de la atmósfera y el "ruido" son las predicciones del cambio a partir de las simulaciones sin las influencias antropogénicas conocidas. Resulta que estas simulaciones predijeron una temperatura más o menos estacionaria con una determinada desviación estándar σ.

Volvamos a las estadísticas. Todos los estadísticos de prueba (z, t, F) son las relaciones entre la estimación y su error estándar. Así que cuando los estadísticos oímos hablar de algo como S/N, pensamos en un estadístico z y lo equiparamos con la probabilidad. Los climatólogos, obviamente, no hacen esto (no se menciona la probabilidad en ninguna parte del artículo ). Simplemente descubren que el cambio es "aproximadamente de tres a ocho" veces mayor de lo esperado, la S/N es de 3σ a 8σ.

Lo que el artículo es que hicieron dos tipos de simulaciones: unas con las influencias antropogénicas conocidas incluidas en el modelo y otras con las influencias antropogénicas conocidas excluidas. Las primeras simulaciones eran similares a los datos reales medidos por satélite, mientras que las segundas estaban muy lejos. Si esto es probable o no, no lo dicen y obviamente no les importa.

Para responder a otras preguntas. No pusieron ningún experimento, hicieron simulaciones según sus modelos. Así que no hay una hipótesis nula explícita excepto la obvia, que el cambio es similar al esperado (S/N es 1).

El tamaño del efecto de la señal es la diferencia entre los datos reales y las simulaciones. Es una señal 5 veces mayor de lo esperado (cinco veces la variabilidad habitual de las temperaturas). Parece que el ruido disminuye por la cantidad y posiblemente la precisión de las mediciones.

En contra de lo que esperamos de los "verdaderos científicos", no hay ningún modelo estadístico del que podamos hablar, por lo que la pregunta sobre los supuestos realizados es vacía. El único supuesto es que sus modelos les permiten predecir el clima. Esto es tan válido como decir que los modelos utilizados para las previsiones meteorológicas son sólidos.

Hay mucho más que tres curvas. Son los resultados de la simulación de diferentes modelos. Simplemente tienen que ser diferentes. Y sí, tienen diferente ruido. La señal, en la medida en que es diferente, son diferentes conjuntos de mediciones, que tienen su error de medición, y también deben ser diferentes. ¿Qué significa esto con respecto a la interpretación? La interpretación probabilística de la S/N no es buena. Sin embargo, la validez externa de los resultados es sólida. Simplemente afirman que los cambios climáticos en el periodo de 1979 a 2011 son comparables a las simulaciones cuando se tienen en cuenta las influencias antropogénicas conocidas y aproximadamente cinco veces mayores que los calculados por simulación cuando los factores antropogénicos conocidos se excluyen del modelo.

Así que queda una pregunta. Si los climatólogos piden a los estadísticos que hagan un modelo, ¿cuál debería ser? En mi opinión algo en la línea del movimiento browniano.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X