24 votos

¿Por qué utilizar la teoría del valor extremo?

Vengo de la Ingeniería Civil, en la que utilizamos Teoría del valor extremo como la distribución GEV para predecir el valor de ciertos eventos, como La mayor velocidad del viento es decir, el valor al que sería inferior el 98,5% de la velocidad del viento.

Mi pregunta es que por qué utilizar un distribución de valores extremos ? ¿No sería más fácil si simplemente utilizáramos el distribución general y obtener el valor de la 98,5% de probabilidad ?

30voto

jws121295 Puntos 36

Descargo de responsabilidad: En algunos puntos de lo que sigue, esto supone GROSAMENTE que sus datos se distribuyen normalmente. Si realmente estás diseñando algo, habla con un profesional de las estadísticas y deja que esa persona firme en la línea diciendo cuál será el nivel. Habla con cinco de ellos, o con 25. Esta respuesta está pensada para un estudiante de ingeniería civil que pregunta "por qué", no para un profesional de la ingeniería que pregunta "cómo".

Creo que la pregunta que hay detrás es "¿qué es la distribución de valores extremos?". Sí, es un poco de álgebra - símbolos. ¿Y qué?

Pensemos en las inundaciones de 1000 años. Son grandes.

Cuando se produzcan, van a matar a mucha gente. Muchos puentes van a caer.
¿Sabes qué puente no va a caer? Lo sé. Tú no... todavía.

Pregunta: ¿Qué puente no se va a caer en una inundación de 1000 años?
Respuesta: El puente diseñado para soportarlo.

Los datos que necesitas para hacerlo a tu manera:
Digamos que tienes 200 años de datos diarios sobre el agua. ¿Está la inundación de 1000 años ahí? Ni de lejos. Tienes una muestra de una cola de la distribución. No tienes la población. Si conocieras toda la historia de las inundaciones entonces tendrías la población total de datos. Pensemos en esto. ¿Cuántos años de datos necesitas tener, cuántas muestras, para tener al menos un valor cuya probabilidad sea de 1 en 1000? En un mundo perfecto, se necesitarían al menos 1000 muestras. El mundo real es desordenado, así que necesitas más. Empiezas a tener probabilidades de 50/50 a partir de unas 4000 muestras. Empiezas a tener garantías de más de 1 en torno a las 20.000 muestras. Muestra no significa "agua un segundo frente al siguiente", sino una medida para cada fuente de variación única, como la variación de un año a otro. Una medida sobre un año, junto con otra medida sobre otro año constituyen dos muestras. Si no tienes 4.000 años de buenos datos, entonces es probable que no tengas un ejemplo de inundación de 1000 años en los datos. Lo bueno es que no se necesitan tantos datos para obtener un buen resultado.

He aquí cómo obtener mejores resultados con menos datos:
Si se observan los máximos anuales, se puede ajustar la "distribución de valores extremos" a los 200 valores de los niveles máximos anuales y se tendrá la distribución que contiene el nivel de inundación de 1000 años. Será el álgebra, no el verdadero "cómo es de grande". Puedes utilizar la ecuación para determinar el tamaño de la inundación de 1000 años. Entonces, dado ese volumen de agua, puedes construir tu puente para resistirlo. No te fijes en el valor exacto, sino en el más grande, ya que de lo contrario lo estarás diseñando para que falle en la crecida de 1.000 años. Si te atreves, puedes utilizar el remuestreo para calcular cuánto más allá del valor exacto de 1000 años necesitas construirlo para que resista.

He aquí por qué EV/GEV son las formas analíticas pertinentes:
La distribución generalizada de valores extremos se refiere a cuánto varía el máximo. La variación del máximo se comporta de forma muy diferente a la variación de la media. La distribución normal, a través del teorema del límite central, describe muchas "tendencias centrales".

Procedimiento:

  1. haz lo siguiente 1000 veces:
    i. elegir 1000 números de la distribución normal estándar
    ii. calcular el máximo de ese grupo de muestras y almacenarlo
  2. ahora trazar la distribución del resultado

    #libraries
    library(ggplot2)
    
    #parameters and pre-declarations
    nrolls <- 1000
    ntimes <- 10000
    store <- vector(length=ntimes)
    
    #main loop
    for (i in 1:ntimes){
    
         #get samples
         y <- rnorm(nrolls,mean=0,sd=1)
    
         #store max
         store[i] <- max(y)
    }
    
    #plot
    ggplot(data=data.frame(store), aes(store)) + 
         geom_histogram(aes(y = ..density..),
                        col="red", 
                        fill="green", 
                        alpha = .2) + 
         geom_density(col=2) + 
         labs(title="Histogram for Max") +
         labs(x="Max", y="Count")

Esta NO es la "distribución normal estándar": enter image description here

El pico está en 3,2 pero el máximo sube hacia 5,0. Tiene una inclinación. No llega por debajo de 2,5. Si tienes datos reales (la normal estándar) y sólo eliges la cola, entonces estás eligiendo uniformemente al azar algo a lo largo de esta curva. Si tienes suerte, entonces estás hacia el centro y no en la cola inferior. La ingeniería es lo contrario de la suerte: se trata de conseguir siempre los resultados deseados. " Los números aleatorios son demasiado importantes para dejarlos al azar "(véase la nota a pie de página), especialmente para un ingeniero. La familia de funciones analíticas que mejor se ajusta a estos datos: la familia de distribuciones de valores extremos.

Muestra de ajuste:
Digamos que tenemos 200 valores aleatorios del año-máximo de la distribución normal estándar, y vamos a pretender que son nuestra historia de 200 años de niveles máximos de agua (sea lo que sea que eso signifique). Para obtener la distribución haríamos lo siguiente:

  1. Muestrear la variable "store" (para hacer un código corto/fácil)
  2. ajuste a una distribución de valores extremos generalizada
  3. encontrar la media de la distribución
  4. utilizar el bootstrapping para encontrar el límite superior del IC del 95% en la variación de la media, por lo que podemos orientar nuestra ingeniería para ello.

(el código supone que se ha ejecutado primero lo anterior)

library(SpatialExtremes) #if it isn't here install it, it is the ev library
y2 <- sample(store,size=200,replace=FALSE)  #this is our data

myfit <- gevmle(y2)

Esto da resultados:

> gevmle(y2)    
       loc      scale      shape     
 3.0965530  0.2957722 -0.1139021     

Se pueden introducir en la función generadora para crear 20.000 muestras

y3 <- rgev(20000,loc=myfit[1],scale=myfit[2],shape=myfit[3])

Construir hasta lo siguiente dará 50/50 de probabilidades de fracasar en cualquier año:

media(y3)
3.23681

Aquí está el código para determinar cuál es el nivel de "inundación" de 1000 años:

p1000 <- qgev(1-(1/1000),loc=myfit[1],scale=myfit[2],shape=myfit[3])
p1000

Si se construye de esta manera, las probabilidades de fracasar en una inundación de 1000 años son del 50 %.

p1000
4.510931

Para determinar el IC superior del 95% he utilizado el siguiente código:

myloc <- 3.0965530
myscale <- 0.2957722
myshape <- -0.1139021

N <- 1000
m <- 200
p_1000 <- vector(length=N)
yd <- vector(length=m)

for (i in 1:N){

      #generate samples
    yd <- rgev(m,loc=myloc,scale=myscale,shape=myshape)

    #compute fit
    fit_d <- gevmle(yd)

    #compute quantile
    p_1000[i] <- qgev(1-(1/1000),loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])

}

mytarget <- quantile(p_1000,probs=0.95)

El resultado fue:

> mytarget
     95% 
4.812148

Esto significa que, para resistir la gran mayoría de las inundaciones de 1.000 años, dado que sus datos son inmaculadamente normales (no es probable), debe construir para el ...

> out <- pgev(4.812148,loc=fit_d[1],scale=fit_d[2],shape=fit_d[3])
> 1/(1-out)

o el

> 1/(1-out)
   shape 
1077.829 

... 1078 años de inundación.

Las líneas de fondo:

  • tienes una muestra de los datos, no la población total real. Eso significa que tus cuantiles son estimaciones, y podrían estar fuera de lugar.
  • Las distribuciones como la del valor extremo generalizado son construidas para utilizar las muestras para determinar las colas reales. Son mucho menos malas en la estimación que el uso de los valores de la muestra, incluso si no se tienen suficientes muestras para el enfoque clásico.
  • Si eres robusto el techo es alto, pero el resultado de eso es - que no fracasas.

Mucha suerte

PS:

  • He oído que algunos diseños de ingeniería civil tienen como objetivo el percentil 98,5. Si hubiéramos calculado el percentil 98,5 en lugar del máximo, habríamos encontrado una curva diferente con parámetros distintos. Creo que se trata de construir para una tormenta de 67 años. $$ 1/(1-0.985) \approx 67 $$ El enfoque, en mi opinión, sería encontrar la distribución de las tormentas de 67 años, luego determinar la variación en torno a la media, y conseguir el acolchado de manera que esté diseñado para tener éxito en la tormenta de 67 años en lugar de fracasar en ella.
  • Teniendo en cuenta el punto anterior, en promedio cada 67 años los civiles deberían tener que reconstruir. Por lo tanto, con el coste total de la ingeniería y la construcción cada 67 años, dada la vida operativa de la estructura civil (no sé cuál es), en algún momento podría ser menos costoso realizar la ingeniería para un período intertemporal más largo. Una infraestructura civil sostenible es aquella diseñada para durar al menos una vida humana sin fallos, ¿no?

PS: más diversión - un video de youtube (no es mío)
https://www.youtube.com/watch?v=EACkiMRT0pc

Nota a pie de página: Coveyou, Robert R. "La generación de números aleatorios es demasiado importante para dejarla al azar". Métodos de Probabilidad Aplicada y Monte Carlo y aspectos modernos de la dinámica. Studies in applied mathematics 3 (1969): 70-111.

3 votos

Puede que no sea lo suficientemente claro. Mi principal preocupación es que por qué utilizar extreme value distribution en lugar de the overall distribution para ajustar los datos y obtener los valores del 98,5%.

0 votos

¿A qué se refiere con la población general?

1 votos

Actualizó la respuesta.

9voto

Aksakal Puntos 11351

Si sólo te interesa una cola, tiene sentido que centres tus datos colección y el esfuerzo de análisis en la cola. Debería ser más eficiente hacerlo. He hecho hincapié en la recopilación de datos porque este aspecto suele ignorarse cuando se presenta un argumento a favor de las distribuciones EVT. De hecho, podría ser inviable recopilar los datos pertinentes para estimar lo que se llama una distribución general en algunos campos. Lo explicaré con más detalle a continuación.

Si se trata de una inundación de 1 en 1000 años como en el ejemplo de @EngrStudent, entonces para construir el cuerpo de la distribución normal se necesitan muchos datos para llenarla de observaciones. Potencialmente necesitas todas las inundaciones que han ocurrido en los últimos cientos de años.

Deténgase un segundo y piense en qué es exactamente una inundación. Cuando el patio de mi casa se inunda después de una fuerte lluvia, ¿es una inundación? Probablemente no, pero ¿dónde está exactamente la línea que separa una inundación de un suceso que no lo es? Esta sencilla pregunta pone de manifiesto el problema de la recogida de datos. ¿Cómo podemos asegurarnos de que recogemos todos los datos del cuerpo siguiendo la misma norma durante décadas o incluso siglos? Es prácticamente imposible recoger los datos sobre el cuerpo de la distribución de las inundaciones.

Por lo tanto, no es sólo una cuestión de eficiencia de análisis sino una cuestión de viabilidad de datos colección Si se trata de modelar toda la distribución o sólo una cola.

Naturalmente, con las colas la recogida de datos es mucho más fácil. Si definimos el umbral suficientemente alto para lo que es un gran inundación entonces podemos tener una mayor probabilidad de que todos o casi todos esos eventos estén probablemente registrados de alguna manera. Es difícil que se pierda una inundación devastadora, y si hay algún tipo de civilización presente habrá algún recuerdo guardado sobre el evento. Por lo tanto, tiene sentido construir las herramientas analíticas que se centran específicamente en las colas, dado que la recogida de datos es mucho más robusta en los eventos extremos que en los no extremos en muchos campos como los estudios de fiabilidad.

0 votos

+1 Puntos interesantes y contundentes, especialmente en los comentarios del final.

0 votos

(+1) En relación con su último punto (memoria preservada), el Efecto Sadler puede ser de interés.

0 votos

@GeoMatt22, es la primera vez que veo el artículo y el término Efecto Sadler. Gracias por el enlace

7voto

Factor Mystic Puntos 12465

Se utiliza la teoría del valor extremo para extrapolar a partir de los datos observados. A menudo, los datos que tienes simplemente no son lo suficientemente grandes como para proporcionarte una estimación sensata de una probabilidad de cola. Tomando el ejemplo de @EngrStudent de un evento de 1 en 1000 años: eso corresponde a encontrar el cuantil del 99,9% de una distribución. Pero si sólo tienes 200 años de datos, sólo puedes calcular estimaciones empíricas de cuantiles hasta el 99,5%.

La teoría del valor extremo permite estimar el cuantil del 99,9%, haciendo varias suposiciones sobre la forma de su distribución en la cola: que sea suave, que decaiga con un cierto patrón, etc.

Tal vez piense que la diferencia entre el 99,5% y el 99,9% es menor; al fin y al cabo, sólo es un 0,4%. Pero es una diferencia de probabilidad y cuando estás en la cola, puede traducirse en una gran diferencia en quantiles . He aquí una ilustración de lo que parece para una distribución gamma, que no tiene una cola muy larga como estas cosas. La línea azul corresponde al cuantil del 99,5%, y la línea roja es el cuantil del 99,9%. Mientras que la diferencia entre ellos es mínima en el eje vertical, la separación en el eje horizontal es sustancial. La separación sólo se hace más grande para las distribuciones de cola verdaderamente larga; la gamma es en realidad un caso bastante inocuo.

enter image description here

0 votos

Su respuesta es incorrecta. El punto del 99,9% de una Normal anual no se corresponde con un evento de 1 en 1000 años. El máximo de 1000 Normales tiene una distribución diferente. Creo que eso se aborda en otras respuestas.

0 votos

@MarkL.Stone En ningún sitio he dicho nada sobre el máximo de 1000 normales.

1 votos

Ese es exactamente mi punto. El evento de 1 en 1000 años debería basarse en el máximo de 1000 normales anuales. Eso es muy diferente al punto de 99,9$ de una Normal anual. Véase mi comentario a la respuesta de Karel Macek más abajo.

6voto

sergiol Puntos 129

Normalmente, la distribución de los datos subyacentes (por ejemplo, las velocidades del viento gaussianas) corresponde a un único punto de muestra. El percentil 98 le dirá que para cualquier punto seleccionado al azar hay un 2% de posibilidades de que el valor sea mayor que el percentil 98.

No soy ingeniero civil, pero imagino que lo que se quiere saber no es la probabilidad de que la velocidad del viento en un día determinado sea superior a un número determinado, sino la distribución de la mayor ráfaga posible a lo largo de, digamos, el curso del año. En ese caso, si las ráfagas de viento máximas diarias están, digamos, distribuidas exponencialmente, entonces lo que quieres es la distribución de la ráfaga de viento máxima a lo largo de 365 días... esto es lo que la distribución de valores extremos pretendía resolver.

1voto

Sahadeo Padhye Puntos 41

El uso del cuantil simplifica el cálculo posterior. Los ingenieros civiles pueden sustituir el valor (velocidad del viento, por ejemplo) en sus fórmulas de primer principio y obtienen el comportamiento del sistema para aquellas condiciones extremas que corresponden al cuantil del 98,5%.

El uso de toda la distribución podría parecer que proporciona más información, pero complicaría los cálculos. Sin embargo, podría permitir el uso de enfoques avanzados de gestión de riesgos que equilibraran de forma óptima los costes relacionados con (i) la construcción y (ii) el riesgo de fallo.

0 votos

Bueno... puede que no sea lo suficientemente claro. Sólo quiero saber por qué utilizar la teoría del valor extremo en lugar de la distribución general (¿la distribución completa?) que utilizamos normalmente?

1 votos

Si la función de distribución acumulativa para cualquier instancia, como la velocidad máxima diaria del viento, es F(x), entonces la función de distribución acumulativa para el máximo de n instancias independientes (por ejemplo, n = 365 para un año con la velocidad máxima diaria del viento) es F^n(x). Esto es diferente de F(x).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X