Una log-normal de distribución está totalmente definido por el par de parámetros $\mu$$\sigma$. Puesto que usted desea que se ajustan a esta distribución de sus datos, es suficiente para estimar estos dos valores. Normalmente, usted tiene acceso a los datos en bruto, y apliquen el estándar de los estimadores de máxima verosimilitud (Emv) por $\mu$$\sigma$, que son sencillas:
$$\hat{\mu} = \frac{1}{n}\sum_i \ln(y_i) = \langle \ln y \rangle\\
\hat{\sigma}^2 = \frac{1}{n}\sum_i (\ln(y_i)-\hat{\mu})^{2} \enspace .$$
Es decir, $\mu$ es la media de los logaritmos de sus datos observados $\{y_i\}$, e $\sigma$ es la desviación estándar del logaritmo de los datos.
Pero en este caso, usted no tiene los datos en bruto. En su lugar, usted tiene algunos de boceto información acerca de la función de distribución acumulativa (CDF). A muy grandes rasgos, ¿qué sabe usted de la fracción de la distribución de $\Pr(y)$ que es inferior a un $y$ para un conjunto de valores de $\{y_i\}$. Todavía se puede estimar el registro de los parámetros normales (o los de cualquier otra distribución) de este tipo de información, pero hay matices.
Dos enfoques vienen a la mente. El primero es un rápido y sucio, uno que no se producen enteramente exacta estimaciones de los parámetros, pero se le acercan lo suficiente como para tener una idea de lo que la distribución se parece y, si quieres, más o menos lo que el coeficiente de Gini sería. El segundo es más complicado y más precisos para el tipo de datos que tiene.
Rápido y sucio aproximación
Aquí está el rápido y sucio de la solución. La información que se tiene es un "desechado" la versión de la CDF, representado por un conjunto de pares $(q_i,y_i)$ donde $q_i$ es la fracción de la distribución en o por debajo del valor de $y_i$ (nota: usted dijo que el PPP es un promedio dentro de la tolva, la cual es una técnica distinta de la CDF, pero para nuestro cálculo, que la distinción no hace una diferencia).
Ahora, recordemos que la definición de la media es
$$\langle x \rangle = \sum_i x_i \Pr(x_i)\enspace ,$$
donde $\Pr(x_i)$ es la probabilidad de observar $x_i$. No tenemos $\Pr(x)$, pero nos puede aproximar mediante la binned CDF información, como esta
$$\hat{\mu} \approx \sum_{i=1}^k \Delta q_i \ln x_i$$
donde $\Delta q_i=q_{i+1} -q_i$ es el tamaño o anchura de la $i$th bin, de $k$ papeleras. Del mismo modo, para la desviación estándar, la definición es
$$\sigma = \sum_i (x_i-\langle x \rangle)^2 \Pr(x_i)\enspace,$$
que se convierte en
$$\hat{\sigma} \approx \sum_{i=1}^{k} \Delta q_i (x_i-\hat{\mu})^2 \enspace .$$
Para aplicar estos a sus datos, usted debe informar a $x_i=\ln y_i$ puesto que trabaja con el registro de la distribución normal, en lugar de la normal (o de Gauss) de distribución. La codificación de estos estimadores debe ser bastante fácil.
En mis experimentos numéricos con estos estimadores, yo siempre obtienen pequeños errores en las estimaciones en relación a la subyacente o "población" los valores utilizados para generar sintético log-normal de los datos. Si utiliza estos con sus datos, usted no debe tratar a los valores estimados como muy precisa. Para conseguir esos, sería necesario aplicar un matemáticamente más sofisticado, que voy a esbozar a partir de ahora.
La máxima probabilidad de enfoque
El más complicado y más exacta de la solución es sacar el máximo de probabilidad estimación del parámetro de la representación particular de la log-normal de distribución que tiene, es decir, la binned CDF. La definición de la log-normal PDF
$$\Pr(x) = \frac{1}{x\sigma\sqrt{2\pi}}{\rm e}^{-\frac{(\ln x - \mu)^2}{2\sigma^2} } \enspace ,$$
y el CDF es
$$\Pr(x<X) = F(x) = \frac{1}{2}\left(1+{\rm erf}\left( \frac{\ln x - \mu}{\sigma\sqrt{2}} \right) \right) \enspace ,$$
donde $\textrm{erf}()$ es la función de error, y en el que dejemos $F(x)$ ser un corto representación de la mano de la CDF. (Normalmente, diríamos $F(x\,|\,\mu,\sigma)$ para indicar que $F$ depende del parámetro opciones, pero voy a dejar caer que la notación a partir de ahora, sólo recuerda que es implícita.) Esto es importante porque usted quiere asumir su cuantil de datos se elaboró a partir de un binned versión de esta distribución. Si $F(x)$ es el CDF, es decir, la integral de $\Pr(x)$$-\infty$$x$, luego deje $F(x\,|\,a,b)$ ser la integral de $\Pr(x)$$a$$b$. (Matemáticamente, $F(x\,|\,a,b)=F(b)-F(a)$.)
La log-verosimilitud de su observó cuantil de la información es entonces
$$\ln \mathcal{L} = \sum_{i=1}^k \ln F(x_i\,|\,q_i,q_{i+1})\enspace .$$
El método más sofisticado sería para estimar el $\mu$ $\sigma$ mediante la maximización de esta función a través de estos parámetros. Esto le daría la estimación por máxima verosimilitud de su log-normal del modelo, dada la observada información que usted tiene. Para opciones arbitrarias de $\{q_i\}$, una solución analítica para el MLE no es posible, pero para espaciados regularmente a las opciones de la papelera de límites, puede ser. Independientemente, sin embargo, usted siempre puede numéricamente maximizar la función (que muchos numérica de los paquetes de software puede hacer por usted, si usted susurro las palabras adecuadas para ellos).
Lo que hace que este enfoque más complicado es que usted necesita para obtener la matemática correcta cuando el código numérico de la rutina para hacer la estimación con los datos. Si la precisión de sus respuestas es realmente importante, entonces, que este enfoque podría ser vale la pena el esfuerzo extra.