La primera cosa que uno aprende en las estadísticas es el uso de la media de la muestra, $\hat{X}$, según una estimación insesgada de la población, $\mu$; y casi en el mismo sería cierto para la variación, $S^2$, según una estimación de $\sigma^2$ (dejando de lado la corrección de Bessel de segundo). A partir de estos supuestos de trabajo, y con la CLT, una gran parte de los básicos de la estadística inferencial se enseña la utilización de Gauss y t distribuciones.
Esto, en principio, parece muy semejante a la de la instalación por detrás de MLE cálculos - es decir, la estimación de un parámetro de población basada en la evidencia de una muestra. Y en ambos casos los parámetros de la población son realmente desconocidos.
Mi pregunta es si el MLE es una especie de los grandes matemáticos frecuentista marco que sustenta la hipótesis básica (introducción) estadística inferencial cursos.
A pesar de que hace sentido para derivar el sombrero de la matriz para la OPERACIÓN de la utilización de MLE, y demostrando el de máxima verosimilitud con Hess matrices, también es cierto que a través de la MLE uno puede "descubrir" la verdad de algunos supuestos básicos que se dan por sentado en los cursos básicos.
Por ejemplo, podemos derivar el resultado de que el MLE de la media, $\mu$, de una distribución de Gauss, dada la observación de una muestra de valores de ($x_1,..,x_N$) es igual a $\hat\mu=\frac{1}{N}\displaystyle\sum_{1}^N x_i$ - es decir, la media de la muestra; y el MLE de la varianza, $\sigma^2$ es $\hat\sigma^2=\frac{1}{x}\displaystyle\sum_{1}^N (x_i-\hat\mu)^2$ -es decir, la varianza de la muestra.
Así que al final el lector lego en la cuenta de que lo que se enseña en los cursos de introducción es muy apoyado por una más sofisticada estructura matemática - Estimación de Máxima Verosimilitud, elaborado por R. A. Fisher y que tiene su principal contraparte en la estadística Bayesiana.
MLE evita la necesidad de un previo probabilidad de que el parámetro de población sin apoyo en la muestra $p(\theta)$ necesario en Bayes cálculo de la inversa de la probabilidad o posterior ($p(\theta|{x_1,...x_n})$) con la ecuación: $p(\theta|{x_1,...x_n}) = \Large \frac{p({x_1,...x_n}|\theta)\,p(\theta)}{p({x_1,...x_n})}$. Y lo hace mediante la sustitución de $\mathscr{L}(\theta|{x_1,...x_n})$ (que se define como la probabilidad conjunta de la función de $\theta|{x_1,...x_n}$) por $p(\theta|{x_1,...x_n})$ y la maximización de su valor.
Así que dos teorías generales, uno de ellos (MLE) que apenas se menciona en los cursos introductorios, pero que sustentan matemáticamente lo que se enseña en la escuela.