32 votos

Estimación de una distribución basada en tres percentiles

¿Qué métodos puedo utilizar para inferir una distribución, si sé que sólo tres percentiles?

Por ejemplo, sé que en un determinado conjunto de datos, el quinto percentil es 8,135, el percentil 50 es 11,259, y el percentil 95 es 23,611. Quiero ser capaz de ir de cualquier otro número para su percentil.

No es de mis datos, y esos son todos los datos que tienen. Es claro que la distribución no es normal. La única otra información que tengo es que estos datos representan gobierno per cápita de financiación para los diferentes distritos escolares.

Sé lo suficiente acerca de las estadísticas para saber que este problema no tiene una solución definitiva, pero no lo suficiente como para saber cómo ir sobre la búsqueda de una buena estimación.

Sería una distribución lognormal ser apropiado? ¿Qué herramientas puedo utilizar para realizar la regresión (o tengo que hacerlo yo mismo)?

28voto

Marc-Andre R. Puntos 789

Como @whuber señaló, los métodos estadísticos no exactamente el trabajo aquí. Debe inferir la distribución de otras fuentes. Cuando usted sabe que la distribución tiene un no-lineal de la ecuación de resolver el ejercicio. Denotar por $f$ el cuantil función de su distribución de probabilidad con vector de parámetros $\theta$. Lo que tenemos es el siguiente sistema no lineal de ecuaciones:

\begin{align*} q_{0.05}&=f(0.05,\theta) \\ q_{0.5}&=f(0.5,\theta) \\ q_{0.95}&=f(0.95,\theta)\\ \end{align*}

donde $q$ son sus cuantiles. Usted necesita para resolver este sistema para encontrar $\theta$. Ahora para prácticamente para cualquier 3-distribución de parámetros encontrará los valores de los parámetros de satisfacer esta ecuación. 2-parámetro y el parámetro 1-distribuciones de este sistema es sobredeterminada, por lo que no hay soluciones exactas. En este caso, usted puede buscar para un conjunto de parámetros que se minimiza la discrepancia:

\begin{align*} (q_{0.05}-f(0.05,\theta))^2+ (q_{0.5}-f(0.5,\theta))^2 + (q_{0.95}-f(0.95,\theta))^2 \end{align*}

Aquí he elegido la función cuadrática, pero puedes escoger lo que quieras. De acuerdo con @whuber comentarios puede asignar pesos, por lo que es más importante cuantiles puede ser equipado con más precisión.

Para cuatro y más parámetros que el sistema es indeterminado, por lo que un número infinito de soluciones existe.

He aquí una muestra de R código que ilustra este enfoque. Para fines de demostración generar los cuantiles de Singh-Maddala distribución de VGAM paquete. Esta distribución tiene 3 parámetros y se utiliza en el modelado de la distribución de ingresos.

 q <- qsinmad(c(0.05,0.5,0.95),2,1,4)
 plot(x<-seq(0,2,by=0.01), dsinmad(x, 2, 1, 4),type="l")
 points(p<-c(0.05, 0.5, 0.95), dsinmad(p, 2, 1, 4))

alt text

Ahora la forma de la función que evalúa el sistema no lineal de ecuaciones:

 fn <- function(x,q) q-qsinmad(c(0.05, 0.5, 0.95), x[1], x[2], x[3])

Comprobar si los verdaderos valores satisfacen la ecuación:

 > fn(c(2,1,4),q)
   [1] 0 0 0

Para la solución de la no-lineales sistema de ecuaciones puedo usar la función nleqslv del paquete nlqeslv.

 > sol <- nleqslv(c(2.4,1.5,4.3),fn,q=q)
 > sol$x       
  [1] 2.000000 1.000000 4.000001

Como vemos tenemos la solución exacta. Ahora vamos a tratar de encajar log-normal de distribución para estos cuantiles. Para ello vamos a utilizar la optim función.

 > ofn <- function(x,q)sum(abs(q-qlnorm(c(0.05,0.5,0.95),x[1],x[2]))^2)
 > osol <- optim(c(1,1),ofn)
 > osol$par
   [1] -0.905049  0.586334

Ahora parcela el resultado

  plot(x,dlnorm(x,osol$par[1],osol$par[2]),type="l",col=2)
  lines(x,dsinmad(x,2,1,4))
  points(p,dsinmad(p,2,1,4))

alt text

De esto podemos ver de inmediato que la función cuadrática no es tan bueno.

Espero que esto ayude.

22voto

jldugger Puntos 7490

El uso de una puramente estadístico, el método para realizar este trabajo se proporcionan ningún tipo de información adicional acerca de la distribución de los gastos de las escuelas: el resultado se reflejan simplemente una elección arbitraria del algoritmo.

Se necesitan más datos.

Esta es fácil: utilizar los datos de años anteriores, de los distritos, lo que sea. Por ejemplo, el gasto federal en 14866 los distritos escolares en el 2008, está disponible desde el Censo de sitio. Esto muestra que en todo el país, total y per-cápita (matriculados) federal de ingresos fueron de aproximadamente lognormally distribuido, pero se rompe por el estado muestra una variación sustancial (por ejemplo, registro de gastos en Alaska tiene asimetría negativa mientras que el registro del gasto en el estado de Colorado tiene una fuerte asimetría positiva). El uso de los datos para caracterizar la probable forma de distribución y, a continuación, ajuste su cuantiles para ese formulario.

Si estás ni siquiera cerca de la derecha de la distribución de la forma, entonces usted debería ser capaz de reproducir los cuantiles con precisión mediante el ajuste de uno o dos parámetros. La mejor técnica para encontrar el ajuste dependerá de lo que la distribución de la forma que usted utilice, pero, mucho más importante, que dependerá de lo que usted pretende utilizar los resultados para. ¿Necesita estimar un promedio de gasto de la cantidad? Los límites superior e inferior en el gasto? Sea lo que sea, que desea adoptar alguna medida de bondad de ajuste que le dará la mejor oportunidad de tomar buenas decisiones con sus resultados. Por ejemplo, si su interés se centra en la parte superior del 10% de todos los gastos, usted va a querer para que se ajuste al percentil 95 precisión y usted podría importa poco, ajuste el percentil 5. Ningún sofisticado accesorio técnica de estas consideraciones para usted.

Por supuesto, nadie puede legítimamente garantiza que los datos informados, decisión orientada método funcionará mejor (o peor) que algunas de estadística de la receta, pero-a diferencia de un enfoque puramente estadístico: este método tiene un fundamento basado en la realidad, con un enfoque en sus necesidades, dándole una cierta credibilidad y la defensa contra las críticas.

13voto

MARTiN Puntos 21

Probar el paquete de rriskDistributions y--si estás seguro acerca de la familia de la distribución logarítmico-normal: Utilice el comando

get.lnorm.par(p=c(0.05,0.5,0.95),q=c(8.135,11.259,23.611))

que debería solucionar tu problema. Uso fit.perc en su lugar si no desea restringir a un conocido pdf.

8voto

Berek Bryan Puntos 349

Para una lognormal la relación del percentil 95 para la mediana es igual a la razón de la mediana el percentil 5. Eso no es ni siquiera cerca de la verdad aquí para lognormal no sería un buen ajuste.

Usted tiene suficiente información para que se ajuste de una distribución con tres parámetros, y que claramente necesita una asimetría de la distribución. Para el análisis de la simplicidad, yo sugeriría que el desplazado log-logística de distribución como su cuantil de la función (es decir, la inversa de su función de distribución acumulativa) puede ser escrita de una manera razonablemente sencilla forma cerrada, así que usted debería ser capaz de obtener expresiones cerradas para sus tres parámetros en términos de sus tres cuantiles con un poco de álgebra (se los dejo como ejercicio!). Esta distribución se utiliza en la frecuencia de inundaciones de análisis.

Esto no va a dar ninguna indicación de la incertidumbre en las estimaciones de los otros cuantiles aunque. No sé si lo necesito, pero como un estadista que siento que debo ser capaz de proporcionar, así que no estoy realmente satisfecho con esta respuesta. Ciertamente, no utilice este método, o, probablemente, cualquier método, para extrapolar (mucho) fuera del rango del 5 al 95 percentiles.

2voto

Sean Preston Puntos 318

Acerca de las cosas que sólo se pueden inferir a partir de los datos es que la distribución es nonsymmetric. Ni siquiera se puede saber si los cuantiles vino de una armarios de distribución o simplemente la ecdf.

Si venían de una cocina equipada de distribución, usted podría tratar de todas las distribuciones que usted puede pensar y ver si de cualquier partido. Si no, no hay casi información suficiente. Usted podría interpolar un 2do grado del polinomio o una de 3er grado de la spline para el cuantil de la función y el uso que, o llegar a una teoría de la distribución de la familia y el partido de cuantiles, pero cualquiera de las inferencias que se iba a hacer con estos métodos sería profundamente sospechoso.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X