Entiendo los estimadores de máxima probabilidad para mu y sigma para la distribución lognormal cuando los datos son valores reales. Sin embargo, necesito entender cómo se modifican estas fórmulas cuando los datos ya están agrupados o agrupados en binomios (y no se dispone de valores reales). Específicamente, para mu, el estimador mle es la suma de los logaritmos de cada X (dividido por n que es el número de puntos). Para sigma al cuadrado, el estimador mle es la suma de (cada log X menos el mu, al cuadrado); todo dividido por n. (El orden de las operaciones es tomar cada log X menos el mu; al cuadrado eso; sumar eso sobre todos los X; luego dividir por n). Ahora supongamos los datos de las casillas b1, b2, b3, y así sucesivamente, donde b1 a b2 es la primera casilla; b2 a b3 la segunda casilla y así sucesivamente. ¿Cuáles son los mu y sigma modificados al cuadrado? Gracias.
Respuesta
¿Demasiados anuncios?Deje que Φ ser la función de distribución normal estándar acumulativa. La probabilidad de que un valor Y extraída de una distribución logarítmica normal con media logarítmica μ y registrar el SD σ se encuentra en el intervalo (bi,bi+1] por lo tanto es
Pr
Llama a este valor f_i( \mu , \sigma ) .
Cuando los datos consisten en sorteos independientes Y_1,Y_2, \ldots , Y_N con Y_i cayendo en la basura j(i) y los puntos de corte del contenedor se establecen independientemente de la Y_i las probabilidades se multiplican, de donde la probabilidad logarítmica es la suma de los logaritmos de estos valores:
\log ( \Lambda ( \mu , \sigma )) = \sum_ {i=1}^{N} \log (f_{j(i)}( \mu , \sigma )).
Basta con contar el número de Y_i cayendo dentro de cada cubo j ; que este conteo sea k(j) . Al recoger el k(j) términos asociados con bin j para cada recipiente, la suma se condensa a
\log ( \Lambda ( \mu , \sigma )) = \sum_ {j} k(j) \log (f_{j}( \mu , \sigma )).
Los EML son los valores \hat { \mu } y \hat { \sigma } que juntos maximizan \log ( \Lambda ( \mu , \sigma )) . No hay una fórmula cerrada para ellos en general: se necesitan soluciones numéricas.
Ejemplo
Considere los valores de los datos que se sabe que sólo se encuentran dentro de los intervalos pares [0,2] , [2,4] etc. Generé al azar 100 de ellos de acuerdo a una distribución Lognormal(0,1). En Mathematica esto se puede hacer a través de
With[{width = 2},
data = width {Floor[#/width], Floor[#/width] + 1} & /@
RandomReal[LogNormalDistribution[0, 1], 100]
];
Aquí están sus cuentas:
Interval Count
[0, 2] 77
[2, 4] 16
[4, 6] 5
[6, 8] 1
[16,18] 1
Encontrar el MLE para datos como este requiere dos procedimientos. Primero, uno para computar la contribución de una lista de los 100 intervalos a la probabilidad del logaritmo:
logLikelihood[data_, m_, s_] :=
With[{f = CDF[LogNormalDistribution[m, s], #] &},
Sum[Log[f[b[[2]]] - f[b[[1]]]], {b, data}]
];
Segundo, uno para maximizar numéricamente la probabilidad de logaritmo:
mle = NMaximize[{logLikelihood[data, m, s], s > 0}, {m, s}]
La solución comunicada por Mathematica es
{-77.0669, {m -> -0.014176, s -> 0.952739}}
El primer valor de la lista es la probabilidad de logaritmo y el segundo (evidentemente) da las EML de \mu y \sigma respectivamente. Están cómodamente cerca de sus verdaderos valores.
Otros sistemas de software variarán en su sintaxis, pero normalmente funcionarán de la misma manera: un procedimiento para calcular las probabilidades y otro para maximizar la probabilidad logarítmica determinada por esas probabilidades.