4 votos

Extraño problema de MLE basado en función de Dirichlet

Esta pregunta fue en una TAREA en mi Teoría Estadística de la clase y me encuentro con el profesor de la respuesta y explicación satisfactoria. Por favor, dame un poco de orientación en cuanto a por qué

  • $\bar{x}$ es el MLE si este es el caso, o

  • Déjeme saber si estoy en lo correcto al pensar que tanto $\bar{x}$ $1-\bar{x}$ maximizar la probabilidad de la función y, por tanto, el MLE no es el único, o

  • Si el problema es aún bien definida, ya que se plantea. Me siento como este podría ser el caso también.

Entiendo que la definición de la MLE en el más regular de las circunstancias, como se detalla en la sección de Principios de http://en.wikipedia.org/wiki/Maximum_likelihoodpero la extraña forma del PDF, trae a colación cuestiones con supremums que no estoy acostumbrado a tratar con.

Pregunta: Vamos a $X_1,...,X_n$ ser un yo.yo.d. secuencia de 0-1 con valores de RV con las probabilidades

$$ P(X_1=1)=\begin{cases} \theta, & \theta\in\mathbb{Q}\\1-\theta, & \theta\notin\mathbb{Q} \end{casos} $$

donde $\theta\in(0,1)$. ¿El MLE de $\theta$ existen?

Esquema del Profesor de la solución: Esta es la idea principal de mis profesores de la solución. La función de probabilidad es

$$ L(\theta|x_1,...,x_n)=\{\theta^{\sum{x_j}}(1-\theta)^{n-\sum{x_j}}\chi_{\theta\in\mathbb{Q}} +\theta^{n-\sum{x_j}}(1-\theta)^{\sum{x_j}}\chi_{\theta\noen\mathbb{Q}}\} $$

donde $\chi_A$ es el indicador de la función del conjunto $A$. Tenemos

$$ \begin{eqnarray} \underset{\theta\in[0,1]}{\sup} L(\theta|x_1,...,x_n)&=&\underset{\theta\in[0,1]}{\sup} {\{\theta^{\sum{x_j}}(1-\theta)^{n-\sum{x_j}}\chi_{\theta\in\mathbb{Q}} +\theta^{n-\sum{x_j}}(1-\theta)^{\sum{x_j}}\chi_{\theta\notin\mathbb{Q}}\}} \\&=& \max\{\underset{\theta\in\mathbb{Q}}{\sup} \{\theta^{\sum{x_j}}(1-\theta)^{n-\sum{x_j}}\},\underset{\theta\notin\mathbb{Q}}{\sup} \{\theta^{n-\sum{x_j}}(1-\theta)^{\sum{x_j}}\}\} \\&=& \max\{\bar{x}^{\sum{x_j}}(1-\bar{x})^{n-\sum{x_j}},(1-\bar{x})^{n-\sum{x_j}}\bar{x}^{\sum{x_j}}\} \\&=& \bar{x}^{\sum{x_j}}(1-\bar{x})^{n-\sum{x_j}} \end{eqnarray} $$

Profesor: En este punto, el profesor sostiene que el supremum en el segundo término,$\underset{\theta\notin\mathbb{Q}}{\sup} \{\theta^{n-\sum{x_j}}(1-\theta)^{\sum{x_j}}\}\}$ no alcanzado desde $\bar{x}$ es un número racional. Puesto que los datos se compone de los números racionales, el supremum de la primer término , $\underset{\theta\in\mathbb{Q}}{\sup} \{\theta^{\sum{x_j}}(1-\theta)^{n-\sum{x_j}}\}$ es alcanzado en $\hat{\theta}_1=\bar{x}$ y que este es el MLE de $\theta$.

Yo: me parece Que debe considerar el supremum por el cierre de los conjuntos de $\mathbb{Q}$$\mathbb{R}\backslash\mathbb{Q}$, que sería $[0,1]$, en cuyo caso $\sup L(\theta|x_1,...,x_n)$ se consigue en tanto $\hat{\theta}_1=\bar{x}$$\hat{\theta}_2=1-\bar{x}$. De lo contrario, esencialmente estamos suponiendo que $\theta$ es racional e ignorando irracional $\theta$. Es este el caso? Si es así, esto es un indeseable de la propiedad de la Probabilidad Principio en raros casos como este? Es allí cualquier plausible situación en la que temas como este se producen? Debo dejar de preocuparse por los problemas extraños como este?

Como un aparte, teniendo en cuenta $[0,1]\backslash\mathbb{Q}$ tiene medida de Lebesgue 1 y $[0,1]\cap\mathbb{Q}$ tiene medida de Lebesgue 0, parece como $\bar{x}$ es un mal estimador, ya que es una estimación de $\theta$ si es en un conjunto muy pequeño. También, si $\theta\in\mathbb{R}\backslash\mathbb{Q}$, $\hat{\theta}_2=1-\bar{x}$ es consistente, entonces no puedo pensar en una buena razón por la $\bar{x}$ es mejor.

Editar Como @cardenal señaló, el $x_i$ son obviamente racional, por lo que este no es un problema. Esta dirigido mi primer (tonto) la incomprensión, la que participan suponiendo que el estimador $\bar{x}$ podría ser irracional o racional.

1voto

Jeff Bauer Puntos 236

Yo no soy un profesor de Estadística, y la mayoría probablemente mi enfoque va a ser ingenuos.

Desde que nos fijemos en los casos donde el parámetro de caracterización de la distribución pertenece a distintos conjuntos de números, de la siguiente manera en que van a ser diferentes números. Así que la noción de "el MLE de $\theta$" parece malo o, al menos, confusa o engañosa, ya que no será el mismo $\theta$... Quizás más transparente de la definición de la función de masa de probabilidad sería

$$P(X_1=1)=p=\begin{cases} \theta_1, & p\in\mathbb{Q}\\1-\theta_2, & p\notin\mathbb{Q} \end{casos}$$

con $0< \theta_1\neq \theta_2<1$.
En el escenario donde se $p$ no puede ser racional, mientras que, al mismo tiempo, el MLE sólo puede tomar racional valores, efectivamente estamos obligando a que el rango de la calculadora no tienen elementos en común con el espacio de parámetros donde $p$ vidas. Pero, por supuesto, este es un caso especial de "vacío intersección", ya que los valores que el MLE se toma "muy cerca" de los valores de $p$ puede tomar, y esta es la razón por la MLE es un estimador consistente de $p$, una propiedad que es probabilístico y no requieren de la determinista límite de la MLE para acercarse a la verdadera $p$. Tenga en cuenta que el MLE no puede ser muy consistente, ya que el evento $\{\hat p_{MLE} = p\}$ es imposible por la construcción. Tan sólo converge en probabilidad, no casi seguramente.

Ahora, si $p$ podría ser cualquier número real en el intervalo de $(0,1)$, entonces la probabilidad de a $L(p|\mathbf x)$, como una función de la $p$ se multiplicarían en $p=\bar x$ (de segundo orden, las condiciones para un máximo también están satisfechos). Esto significa que

$$ L(p=\bar x) > L(p\neq \bar x)$$

En otras palabras, cuando se $p$ no puede ser racional, entonces el MLE $\hat p = \bar x$ la probabilidad de adquirir un valor que es mayor que cualquier valor que puede tomar a cualquier no-racional valor de $p$, y para cualquier concebible muestra de una $\{0,1\}$ variable aleatoria. Por la continuidad, creo que esto significa que $\hat p= \bar x$ nos da el supremum de la función de "Probabilidad dada $p$ no es racional" (aunque no su máximo, ya que la función de "Probabilidad dada $p$ no es racional" no está definido por un número racional).

Por lo tanto, si el OP con precisión transmitió el argumento del profesor, ("en el $p$- puede-ser-racional caso, el supremum no es alcanzado desde $\bar x$ es un número racional"), parece que acabo de hacer un argumento para el efecto contrario.

Cuando la probabilidad es la función de "Probabilidad dada $p$ es racional", entonces la media de la muestra es el argmax de esta función, y esto nos da su supremum=máximo también.

Así que en ambos casos, somos buenos en la obtención del estimador de máxima verosimilitud de $p$ mientras la media de la muestra de los datos.

Entonces, si se nos revela que estamos en el escenario "$p$ es racional", ya hemos obtenido el MLE de $\theta_1$. Si se nos revela que estamos en el escenario "$p$ no es racional", a continuación, con la invariancia de la propiedad de la MLE tenemos $\hat \theta_2 = 1-\hat p_{MLE} = 1-\bar x$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X