8 votos

Cómo obtener la función cuantil cuando no se conoce una forma analítica de la distribución

El problema viene de la página 377-379 de este [0] papel.

Dada una distribución continua $F$ y un fijo $z\in\mathbb{R}$ , considerar:

$$L_z(t)=P_F(|z-Z|\leq t)$$

y

$$H(z)=L^{-1}_z(0.5)=\underset{Z\sim F}{\mbox{med}}|z-Z|$$

donde $L^{-1}_z(u)=\inf\{t:L_z(t)>u\}$ es la inversa continua de la derecha. Por lo tanto, para un $z$ es la distancia mediana de todos los $Z\sim F$ a $z$ . A continuación, consideremos la función

$$L(t)=P_F(H(Z)\leq t)$$

Ahora, no tengo una expresión analítica para $H(z)$ (de hecho estoy bastante seguro de que no es posible una expresión analítica para ello) pero dada una FCD $F$ Puedo utilizar fácilmente un algoritmo de búsqueda de raíces para obtener $H(z)$ para cualquier $z$ .

En esta aplicación, el interés está puesto:

$$L^{-1}(0.5)=\underset{Z\sim F}{\mbox{med}}H(Z)$$

Este es el valor medio de la $H(Z)$ , de nuevo, para $Z\sim F$ .

Ahora mismo para conseguir $L^{-1}(0.5)$ Calculo (como se ha explicado anteriormente, utilizando un algoritmo de búsqueda de raíces) los valores de $H(z)$ correspondiente a muchos valores de $z$ en una cuadrícula y tomar la mediana ponderada de estos valores de $H(z)$ (con pesos $f(z)$ ) como mi estimación de $L^{-1}(0.5)$ .

Mis preguntas son:

  • ¿Existe un enfoque más preciso para obtener $L^{-1}(0.5)$ (los autores del documento no dicen cómo $L^{-1}(0.5)$ se calcula) y
  • ¿Cómo debe ser la parrilla de valores de $z$ ¿se elige?

    [0] Ola Hössjer, Peter J. Rousseeuw y Christophe Croux. Asymptotics of an estimator of a robust spread functional. Statistica Sinica 6(1996), 375-388.

0 votos

Según la notación y la terminología, se supone que entendemos " $L_z(t)$ " como la asignación de cualquier $F$ en el número $L_z(t)[F]=P_F(|z-Z|\le t)$ (al fin y al cabo, eso es lo que hacen los "funcionales"). Pero entonces, ¿qué podría " $L_z^{-1}(q)$ ¿"Posiblemente" significa? Podría ser un distribución (literalmente, la inversa de $L_z(t)$ ) o, más probablemente, un número (si fijamos $F$ y ver $L_z$ como función --¡no funcional!), pero no veo ninguna forma de interpretarlo como un variable aleatoria con la distribución $F$ . Eso hace que $M_q(t)$ bastante misteriosa.

0 votos

Un poco, pero todavía debe haber algunos errores tipográficos. Quizás en la definición de $L(t)$ querías usar " $Z$ "(una variable aleatoria con $F$ para su distribución) en lugar de " $z$ "? Después de todo, no se puede asignar una probabilidad a " $H(z)\le t$ ", ya que ambos $H(z)$ y $t$ son números. Aquí se corre el gran riesgo de que un solo error tipográfico en cualquier ecuación convierta su pregunta en algo completamente involuntario e irrelevante; peor aún, podría obtener respuestas correctas que usted ¡malinterpretar! Ayudaría (mucho) incluir explicaciones en inglés de lo que pretende representar cada fórmula.

1voto

Patrick Puntos 183

Por lo tanto, creo que la mejor manera de obtener

$$\text{med}_{Z\sim F} H(Z)$$

es para:

  1. calcular las entradas de la $n$ vector $\{H(z_i)\}_{i=1}^n$ de los valores de $H(z_i)$ correspondiente a una cuadrícula de $n$ valores de $\{z_i\}_{i=1}^n$ colocados uniformemente en $(F_Z^{-1}(\epsilon),F_Z^{-1}(1-\epsilon))$
  2. Calcular la mediana ponderada de $\{H(z_i)\}_{i=1}^n$ con pesos $F_Z^\prime(z_i)$ .

1voto

user60642 Puntos 6

$\DeclareMathOperator*{\med}{med}$ La mediana es el punto que minimiza la expectativa $L^1$ distancia:

$$\med_Z f(Z) = \arg\min_m E_z|f(Z) - m|$$

De ahí que podamos simplificar su expresión:

$$\begin{equation}\med_{z_1 \sim F} \med_{z_2 \sim F} |z_1 - z_2| \\ = \arg\min_{m_1}E_{z_1 \sim F}\left| m_1 - \arg\min_{m_2} E_{z_2 \sim F}\left| m_2 - \left|z_1 - z_2\right|\right|\right| \end{equation}$$

Creo que esto es un problema de optimización a dos niveles que no conozco demasiado, pero tal vez haya técnicas estándar que se puedan aplicar. Por otra parte, puede que no sea más rápido que calcular la mediana de la muestra para muestras más grandes hasta la convergencia.

1 votos

No creo que esto aborde el problema, porque no estamos tratando con realizaciones de $F$ aquí pero con $F$ (Si se quiere, estoy interesado en los valores de estos objetos cuando el tamaño de la muestra va a $\infty$ ). Pero, ¿tal vez he entendido mal su respuesta?

1 votos

Bueno, me acabo de dar cuenta de que he cometido un error con la derivación: las optimizaciones están realmente anidadas. Creo que todavía hay técnicas de optimización que puede utilizar, pero no sé si son mejores que simplemente tomar la segunda mediana en una muestra grande como lo ha estado haciendo.

0 votos

Bueno así que ahora nos preguntamos lo mismo;)

1voto

ebricca Puntos 31

Un enfoque directo basado en datos para estimar la función cuantílica consiste en:

  • de sus observaciones para generar muchos más valores de los que se en su muestra original (especialmente, valores más allá del rango de la muestra limitada inicial). Una buena estrategia es utilizar un bootstrap suavizado simulación para evitar las principales limitaciones de las botas básicas no paramétricas no paramétrico. Esto equivale a simular a partir de una estimación de la densidad del núcleo.
  • a partir de esto, se puede obtener la Función de Distribución Acumulativa empírica (CDF) de los valores simulados ( ecdf en R). La inversa de la FCD no es otra cosa que la función cuantil ( quantile en R). Véase aquí para obtener los valores y trazar su cuantil de la función. Incluso puede obtener bandas de confianza.

Sin embargo, un requisito previo es que el muestreo incluya suficientes observaciones para tener al menos una buena idea de la forma de su PDF subyacente.

0 votos

¿Por qué crees que se consigue una mayor precisión con el bootstrapping?

0 votos

El destino de toda muestra finita es que no contiene todo el espectro de observaciones que pueden darse. Por ejemplo, el caudal máximo de un río observado durante 100 años no es obviamente el máximo absoluto que puede ocurrir. Por tanto, sus estimaciones de la crecida de 500 años (cuantil 0,998) o de la de 1000 años (cuantil 0,999) basadas en su muestra limitada estarán sesgadas (el riesgo será subestimado ). Por el contrario, si genera cientos de miles de nuevas observaciones mediante simulación (a través de bootstrap suavizado o cualquier otra técnica), sus estimaciones serán más precisas

0 votos

¡Eso es un malentendido! Todos los valores de la muestra de bootstrap provienen de esa misma muestra limitada y finita, y no contienen más información que la propia muestra. El bootstrapping (al igual que otras técnicas analíticas) sólo puede ayudarnos a entender mejor qué información hay en la muestra, no puede aumentar esa información.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X