40 votos

¿Cómo derivar la función de verosimilitud de la distribución binomial para la estimación de parámetros?

Según Miller y Freund's Probability and Statistics for Engineers, 8ed (pp.217-218), la función de probabilidad que debe maximizarse para la distribución binomial (ensayos Bernoulli) viene dada por

$L(p) = \prod_{i=1}^np^{x_i}(1-p)^{1-x_i}$

¿Cómo se llega a esta ecuación? Me parece bastante claro con respecto a las otras distribuciones, Poisson y Gaussiana;

$L(\theta) = \prod_{i=1}^n \text{PDF or PMF of dist.}$

Pero la del binomio es un poco diferente. Para ser directos, ¿cómo

$nC_x~p^x(1-p)^{n-x}$

convertirse en

$p^{x_i}(1-p)^{1-x_i}$

en la función de probabilidad anterior?

40voto

En la estimación de máxima verosimilitud, se trata de maximizar $nC_x~p^x(1-p)^{n-x}$ Sin embargo, maximizar esto es equivalente a maximizar $p^x(1-p)^{n-x}$ para un fijo $x$ .

En realidad, la probabilidad para la gaussiana y la poisson tampoco implican sus constantes principales, por lo que este caso es igual que aquellos como w


Respondiendo al comentario de la OP

Aquí hay un poco más de detalle:

Primero, $x$ es el total número de aciertos mientras que $x_i$ es un único ensayo (0 o 1). Por lo tanto:

$$\prod_{i=1}^np^{x_i}(1-p)^{1-x_i} = p^{\sum_1^n x_i}(1-p)^{\sum_1^n1-x_i} = p^{x}(1-p)^{n-x}$$

Esto muestra cómo se obtienen los factores de la probabilidad (ejecutando los pasos anteriores hacia atrás).

¿Por qué desaparece la constante? Informalmente, y lo que la mayoría de la gente hace (incluyéndome a mí), es simplemente notar que la constante principal no afecta al valor de $p$ que maximiza la probabilidad, por lo que simplemente lo ignoramos (efectivamente lo ponemos a 1).

Podemos derivar esto tomando el logaritmo de la función de probabilidad y encontrando dónde su derivada es cero:

$$\ln\left(nC_x~p^x(1-p)^{n-x}\right) = \ln(nC_x)+x\ln(p)+(n-x)\ln(1-p)$$

Tome la derivada wrt $p$ y se ajusta a $0$ :

$$\frac{d}{dp}\ln(nC_x)+x\ln(p)+(n-x)\ln(1-p) = \frac{x}{p}- \frac{n-x}{1-p} = 0$$

$$\implies \frac{n}{x} = \frac{1}{p} \implies p = \frac{x}{n}$$

Obsérvese que la constante principal se ha eliminado del cálculo de la MLE.

Desde un punto de vista más filosófico, una probabilidad sólo tiene sentido para la inferencia hasta una constante multiplicadora, de manera que si tenemos dos funciones de probabilidad $L_1,L_2$ y $L_1=kL_2$ entonces son inferencialmente equivalentes. Esto se denomina Ley de Probabilidad . Por lo tanto, si estamos comparando diferentes valores de $p$ utilizando la misma función de probabilidad, el término principal se vuelve irrelevante.

A nivel práctico, la inferencia mediante la función de probabilidad se basa en realidad en el cociente de probabilidad, no en el valor absoluto de la probabilidad. Esto se debe a la teoría asintótica de los cocientes de probabilidad (que son asintóticamente chi-cuadrados, sujetos a ciertas condiciones de regularidad que suelen ser apropiadas). Las pruebas de razón de verosimilitud se ven favorecidas por la Lemma de Neyman-Pearson . Por lo tanto, cuando intentemos probar dos hipótesis simples, tomaremos el cociente y el factor principal común se cancelará.

NOTA: Esto no sucedería si se compararan dos modelos diferentes, digamos un binomio y un poisson. En ese caso, las constantes son importantes.

De las razones anteriores, la primera (irrelevancia para encontrar el maximizador de L) es la que responde más directamente a tu pregunta.

2voto

Abhishek Tiwari Puntos 21

Xi en el producto se refiere a cada ensayo individual. Para cada ensayo individual xi puede ser 0 o 1 y n es igual a 1 siempre. Por lo tanto, trivialmente, el coeficiente binomial será igual a 1. Por lo tanto, en la fórmula del producto para la probabilidad, el producto de los coeficientes binomiales será 1 y por lo tanto no hay nCx en la fórmula. Me he dado cuenta de esto mientras lo resolvía paso a paso :) (Perdón por el formato, no estoy acostumbrado a contestar con expresiones matemáticas en las respuestas...todavía :) )

2voto

PoultryMan Puntos 39

Puede ser útil recordar que las probabilidades no son probabilidades. En otras palabras, no es necesario que sumen 1 en el espacio muestral. Por lo tanto, para que las matemáticas se realicen más rápidamente, podemos eliminar de la definición de la función de verosimilitud cualquier cosa que no sea una función de los datos o de los parámetros.

0voto

KJR Puntos 1

Para cada factor de la probabilidad (es decir, para cada individuo) "n" = $1$ y "x" = $0$ o $1$ . En este caso con ( $n=1$ ) siempre tenemos $C_x = 1$ . Así que $n C_x = 1$ para cada uno de los factores que componen la probabilidad. Así que la normalización ESTÁ ahí, es sólo $1$ .

En general, una buena comprobación de que se ha escrito la probabilidad de forma correcta y completa (es decir, incluyendo todos los factores, aunque no afecten a un cálculo MLE) es que si se suma la probabilidad sobre todas las realizaciones posibles de los datos se obtiene $1$ . Es fácil ver que la fórmula de Miller y Freund se normaliza a $1$ de esta manera (sólo hay que sumar todos los $x_i = 0$ y $x_i =1$ para todas las i, se obtiene $(1-p) + p = 1$ para cada $i$ factor)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X