18 votos

Distribuciones continuas común con apoyo [0,1]

Pregunta

Estoy buscando a entender lo posible común estadística continua de las distribuciones que existen con el apoyo de [0,1].


De fondo

En mi trabajo me vienen a menudo a través de los datos que están acotados entre 0 y 1 (ambos inclusive) y probablemente sesgada a la derecha.

Estos datos consisten principalmente de las ventas convertidas en porcentajes entre 0 y 1, por tanto el cálculo del importe total por ciento de las ventas o de conversión (ventas divididas por las vistas de la página).

Como no soy muy competente en las estadísticas, siempre tengo problemas para encontrar la mejor distribución para explicar estos datos.

13voto

AdamSane Puntos 1825

Wikipedia tiene una lista de las distribuciones soportadas en un intervalo

Dejando a un lado las mezclas y 0-inflado y 0-1 inflado de los casos (aunque definitivamente, usted debe ser consciente de todos aquellos que si el modelo de datos en la unidad de intervalo), que son comunes sería difícil de establecer (que pueden variar a través de las áreas de aplicación, por ejemplo), pero la beta de la familia, y la triangular, y el truncado normal sería probablemente el principal de los candidatos, ya que parecen ser usado en una variedad de situaciones.

Cada uno de ellos puede ser definido en (0,1) y puede inclinarse en cualquier dirección.

Un ejemplo de cada una se muestra aquí:

plot of density function for a particular member of each of the mentioned distributions, in each case mildly right skew

Que se usan frecuentemente no implica que va a ser adecuado para cualquier situación en la que estamos, aunque. Modelo de elección debe estar basada en una serie de consideraciones, pero donde sea posible, los conocimientos teóricos y prácticos de la asignatura área de conocimiento son importantes.

Siempre tengo problemas para encontrar la mejor distribución para explicar estos datos.

Usted debe conseguir lejos de preocuparse por "mejor", y se centran en "suficiente o adecuada para el propósito presente". No simple distribución, tales como los señalados en realidad se trata de una descripción perfecta de los datos reales ("todos los modelos están equivocados..."), y lo que podría estar bien para un propósito ("... algunos son útiles") pueden ser inadecuados para algún otro propósito.


Editar la información de la dirección en los comentarios:

Si usted tiene exacto de ceros (o exacta, o ambos), entonces usted necesitará el modelo de la probabilidad de que los 0 y el uso de una mezcla de distribución (un 0 inflado de distribución, si usted puede tener el dinero exacto 0) -- no se debe usar una distribución continua.

No es realmente tan difícil de tratar con simples mezclas. Usted ya no tendrá una densidad pero el cdf no es mucho más esfuerzo para escribir o evaluar que sería en el caso continuo; de la misma manera cuantiles no son mucho más esfuerzo; las medias y varianzas son casi tan fácilmente calculada como antes; y son fáciles de simular.

Tomar una ya existente de distribución continua en la unidad de intervalo y la adición de una proporción de ceros (y/o) es, en general, una bonita manera conveniente para el modelo de proporciones que son en su mayoría continua, sino que puede ser 0 o 1.

6voto

Dipstick Puntos 4869

Añadir a Glen_b's respuesta, observe que, si se trata de una variable aleatoria continua, entonces en teoría no debería realmente no importa si la distribución de los apoyos $[0, 1]$ o $(0, 1)$ límites como $\Pr(X=0) = \Pr(X=1) = 0$ (ver $P[X=x]=0$ al $X$ es variable continua). En la vida real que cumple exacto de ceros y unos, debido a la precisión de la medición de problemas y la solución común es aplicar el sencillo "apretar" las transformaciones de moverse lejos de los límites (ver el Trato con 0,1 valores en una versión beta de la regresión y La Beta de la regresión de la proporción de los datos incluidos 1 y 0). Véase también entonces , ¿por Qué no puede la beta de la regresión lidiar con 0s y 1s en la variable de respuesta? el hilo de la discusión relacionada con.

De manera inclusiva los límites no debería preocupar mucho al considerar comunes limitada distribuciones como beta, Kumarshwamy, triangular de distribución, etc.

Si, como dicen, de los datos ha exacto de ceros por otras razones, a continuación, la precisión de la medición temas, entonces se trata con una mezcla de tipo de datos y usted debería considerar la posibilidad de cero-inflado de los modelos, es decir, utilizando la mezcla de la distribución en el formulario

$$ g(x) = \begin{cases} \pi + (1-\pi) f(x) & x = 0 \\ (1-\pi) f(x) & x > 0 \end{casos} $$

donde $f$ es no-cero-inflado de distribución y $\pi$ es la mezcla de parámetro para el control de la probabilidad de exceso de ceros en los datos, lo que sigue es que si $f(0)=0$, $g(0) = \pi$ para las distribuciones $f$ no incluido límites. Usted puede ampliar esta línea de razonamiento a cero-y-uno inflado modelo etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X