29 votos

¿Cuáles son algunas aplicaciones ilustrativas empírica de la probabilidad?

He oído hablar de Owen empírica de la probabilidad, pero hasta hace poco pagado de no prestar atención hasta que me encontré con él en un papel de interés (Mengersen et al. 2012).

En mis esfuerzos para entender, que he recogido de que la probabilidad de los datos observados es representado como $$L = \prod_i p_i = \prod_i P(X_i=x) = \prod_i P(X_i \le x) - P(X_i \lt x)$$ donde $\sum_i p_i = 1$ y $p_i > 0$.

Sin embargo, he sido incapaz de hacer el salto mental que conecta esta representación con la forma en que se puede utilizar para hacer inferencias acerca de las observaciones. Tal vez soy demasiado arraigada en el pensamiento de una probabilidad w.r.t de los parámetros de un modelo?

Independientemente, he estado buscando en Google Scholar para algunas papel empleando empírica de la probabilidad de que me ayudaría a interiorizar el concepto... fue en vano. Obviamente, no hay Arte Owen libro sobre Empírica de la Probabilidad, sino de búsqueda de Libros de Google deja de lado el delicioso bits y todavía estoy en el lento proceso de obtención de un préstamo interbibliotecario.

Mientras tanto, puede que alguien amablemente me apunte a los papeles y documentos que ilustran claramente la premisa empírica de la probabilidad y cómo se utiliza? Una ilustrativa descripción de EL sí mismo también sería bienvenida!

19voto

Nathan Long Puntos 30303

Creo que no hay mejor lugar que Owen libro para aprender acerca de la probabilidad empírica.

Una manera práctica de pensar sobre $L = L(p_1, \ldots, p_n)$ es como la probabilidad de una distribución multinomial en los datos observados puntos $x_1, \ldots, x_n$. La probabilidad es, pues, una función de la probabilidad del vector $(p_1, \ldots, p_n)$, el espacio de parámetros es realmente el $$n-dimensional simplex de probabilidad de vectores, y el MLE es poner el peso $1/$ n en cada una de las observaciones (suponiendo que todos son diferentes). La dimensión del espacio de parámetros aumenta con el número de observaciones.

Un punto central es que la probabilidad empírica proporciona un método para calcular los intervalos de confianza mediante la creación de perfiles, sin necesidad de especificar un modelo paramétrico. Si el parámetro de interés es la media, $\mu$, entonces para cualquier vector de probabilidad $p = (p_1, \ldots, p_n)$ tenemos que la media es
$$\mu(p) = \sum_{i=1}^n x_i p_i,$$ y podemos calcular el perfil de riesgo como $$L_{\text{prof}}(\mu) = \max \{ L(p) \mid \mu(p) = \mu \}.$$ A continuación, se pueden calcular los intervalos de confianza de la forma $$I_r = \{ \mu \mid L_{\text{prof}}(\mu) \geq r L_{\text{prof}}(\bar{x}) \}$$ con $i \in (0,1)$. Aquí $\bar{x}$ es empírica de la media y $L_{\text{prof}}(\bar{x}) = n^{-n}$. Los intervalos de $I_r$ tal vez debería simplemente ser llamado (perfil) intervalos de probabilidad dado ninguna declaración acerca de la cobertura se realiza por adelantado. Con la disminución de $r$ los intervalos de $I_r$ (sí, son intervalos) de forma anidada, el aumento de la familia de los intervalos de confianza. Teoría asintótica o el bootstrap se puede utilizar para calibrar $r$ a lograr 95% de cobertura, dicen.

Owen libro cubre en detalle y proporciona extensiones más complicados de problemas estadísticos y otros parámetros de interés.

16voto

LBugnion Puntos 5095

En econometría, muchos de los documentos que empezar con la suposición de que $$ E[g(X,\theta)] = 0 $$ donde $X$ es un vector de datos, $g$ es un conocido sistema de $p$ ecuaciones, y $\theta \en \Theta \subseteq \mathbb{R}^p$ es un parámetro desconocido, $q \geq p$. La función $g$ proviene de un modelo económico. El objetivo es estimar la $\theta$.

El enfoque tradicional, en la econometría, para la estimación y la inferencia en $\theta$ es utilizar el método generalizado de momentos: $$ \hat{\theta}_\text{GMM} = \text{argmin}_{\theta \en \Theta} \; \bar{g}_n(\theta) 'W \bar{g}_n(\theta) $$ donde $W$ es positiva definida ponderación de la matriz y $$ \bar{g}_n(\theta) := \frac{1}{n} \sum_{i=1}^n g(X_i,\theta). $$ Empírica de la probabilidad de los proveedores de una alternativa calculadora de GMM. La idea es hacer cumplir el momento en que la condición como una restricción al maximizar el test no paramétrico de probabilidad. En primer lugar, fijar un $\theta$. Luego de resolver $$ L(\theta) = \max_{p_1,\ldots,p_n} \; \prod_{i=1}^n p_i $$ sujeto a $$ \sum_{i=1}^n p_i=1, \qquad p_i \geq 0, \qquad \sum_{i=1}^n p_i \cdot g(X_i,\theta) = 0. $$ Este es el `bucle interno'. Maximice más de $\theta$: $$ \hat{\theta}_\text{EL} = \text{argmax}_{\theta \en \Theta} \; \log L(\theta). $$ Este enfoque ha demostrado tener un mejor orden superior propiedades de GMM (ver Newey y Smith 2004, Econometrica), que es una razón por la que es preferible más de GMM. Para referencia adicional, vea las notas de la conferencia y por Imbens y Wooldridge aquí (lección 15).

Por supuesto, hay muchas otras razones por las que EL se ha ganado la atención en econometría, pero espero que esto sea un útil punto de partida. Momento de la igualdad de los modelos son muy comunes en la economía empírica.

8voto

ocram Puntos 9992

En el análisis de supervivencia, la curva de Kaplan-Meier es el más famoso no-paramétrico estimador de la función de sobrevivencia $S(t) = Pr(T > t)$, donde $T$ indica el tiempo-para-evento de la variable aleatoria. Básicamente, $\hat{S}$ es una generalización de la distribución empírica de la función que permite la censura. Puede ser derivado de forma heurística, como se da en la mayoría de los prácticos. Pero también puede ser formalmente derivados como máximo (empírica) de probabilidad del estimador. Aquí hay más detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X