30 votos

Continua la generalización de la distribución binomial negativa

Binomial negativa (NB) distribución está definida en los enteros no negativos y tiene la función de masa de probabilidad$$f(k;r,p)={\binom {k+r-1}{k}}p^{k}(1-p)^{r}.$$ Does it makes sense to consider a continuous distribution on non-negative reals defined by the same formula, after replacing $k\in \mathbb N_0$ by $x\in\mathbb R_{\ge 0}$? The binomial coefficient can be rewritten as a product of $(k+1)\cdot\ldots\cdot(k+r-1)$, which is well-defined for any real $k$. So we would have a PDF $$f(x;r,p)\propto\prod_{i=1}^{r-1}(x+i)\cdot p^{x}(1-p)^{r}.$$ Es una distribución válido? ¿Tiene un nombre? Es tal vez algún compuesto o una mezcla? Hay simple y cerrada fórmulas para la media y la varianza? ¿Esta distribución tiene ningún uso? También, ¿cuál es la constante de proporcionalidad en el PDF?

(Actualmente estoy estudiando un papel que utiliza NB modelo de mezcla (con fijo $r=2$) y se ajusta a través de EM. Sin embargo, los datos son enteros después de que algunos de normalización, es decir, en realidad no enteros. Sin embargo, los autores aplican la norma NB fórmula para calcular la probabilidad y obtener muy razonable de los resultados, así que todo parece funcionar bien. Me pareció muy extraño. Tenga en cuenta que esta pregunta es no sobre NB GLM.)

31voto

Gordon Smyth Puntos 170

Esa es una pregunta interesante. Mi grupo de investigación ha sido el uso de la distribución que se refieren a algunos años en nuestro públicamente disponible de la bioinformática de software. Hasta donde yo sé, la distribución no tiene un nombre y no hay literatura sobre el mismo. Mientras que el papel de Chandra et al (2012), citado por Aksakal está estrechamente relacionada con la distribución que considere parece estar restringida a los valores enteros de a $r$ y no parecen dar una expresión explícita para el pdf.

Para darle un poco de contexto, el NB distribución es muy usada en la investigación genómica para el modelo de datos de expresión de genes derivados de RNA-seq y las tecnologías relacionadas. El recuento de los datos surge como el número de secuencia de DNA o RNA lee extraído de una muestra biológica que se pueden asignar a cada gen. Normalmente hay decenas de millones de lecturas de cada muestra biológica que se asignan alrededor de 25.000 genes. Alternativamente, uno podría tener muestras de ADN a partir de la cual se lee se asignan a genómico de windows. Nosotros y otros han popularizado un enfoque según el cual NB glms se ajustan a la secuencia de lecturas para cada gen, y empírico de Bayes métodos se utilizan para moderar el genewise estimadores de dispersión (dispersión $\phi=1/r$). Este enfoque ha sido citado en decenas de miles de artículos en revistas de la genómica en la literatura, así que usted puede obtener una idea de cuánto se lo usa.

Mi grupo mantiene la bordeadora R paquete de software. Hace algunos años lo hemos revisado todo el paquete para que funcione con fracciones de cuenta, mediante una continua versión de la NB pmf. Simplemente nos convierte todos los coeficientes binomiales en la NB pmf de cocientes de funciones gamma y se utiliza como un (mixto) pdf continuo. La motivación para esto fue que la secuencia de lectura cuenta a veces puede ser fraccionada debido a (1) ambiguo asignación de lecturas para el transcriptoma o del genoma y/o (2) la normalización de los recuentos para la correcta para efectos técnicos. Así que la cuenta a veces se espera que los recuentos o cálculos estimados más que el observado cuenta. Y, por supuesto, la lectura de cuenta puede ser exactamente cero con probabilidad positiva. Nuestro enfoque garantiza que la inferencia de los resultados de nuestro software son continuas en la cuenta, que coinciden exactamente con discretos NB resultados cuando la estimación de la cuenta de pasar a ser números enteros.

Hasta donde yo sé, no hay forma cerrada para la normalización de la constante en el pdf, ni hay formas cerradas para la media o la varianza. Cuando uno considera que no hay forma cerrada para la integral $$\int_0^\infty \frac{1}{\Gamma(x)}dz$$ (el Fransen-Robinson constante) está claro que no puede ser para la integral de la continua NB pdf. Sin embargo a mí me parece que la tradicional media y la varianza de las fórmulas para el NB deben seguir buenas aproximaciones para la continua NB. Además, la normalización de la constante debe variar poco a poco con los parámetros y por lo tanto puede ser ignorada ha de tener influencia insignificante en el de máxima verosimilitud de los cálculos.

Uno puede confirmar estas hipótesis mediante integración numérica. El NB distribución surge en la bioinformática como una gamma de mezcla de distribuciones de Poisson (ver la Wikipedia binomial negativa artículo o McCarthy et al siguiente). La continua NB distribución surge simplemente mediante la sustitución de la distribución de Poisson con su continua analógica con pdf $$f(x;\lambda)=\frac{e^{-\lambda}\lambda^x}{\Gamma(x+1)}$$ para $x\ge 0$. Supongamos por ejemplo que $\lambda=10$. La distribución de Poisson tiene pmf igual que el anterior pdf en los enteros no negativos y, con $\lambda=10$, la de Poisson de media y la varianza son iguales a 10. Integración numérica muestra de que el continuo $f(x;\lambda=10)$ integra a 0.999875 sobre la no-negativo real de la línea, y la media y la varianza de la distribución continua de 10 y 9.998692 respectivamente. Por lo que la normalización de la constante es prácticamente de 1 y la media y la varianza son casi exactamente el mismo que para el discreta distribución de Poisson. La aproximación se ha mejorado aún más si añadimos una continuidad de la corrección, de la integración de $-1/2$$\infty$, en lugar de partir de 0. Con la continuidad de la corrección, todo es correcto acerca de 6 cifras.

En nuestro bordeadora paquete, no es necesario realizar ningún ajuste por el hecho de que no es la masa en cero, porque siempre trabajamos con condicionales de registro de las probabilidades o con la log-verosimilitud diferencias y cualquier funciones delta de anular la salida de los cálculos. Esto es típico por CIERTO para glms con una mezcla de distribuciones de probabilidad. Alternativamente, podríamos considerar que la distribución no tienen masa cero, pero para contar con el apoyo de partida en -1/2 en lugar de a cero. Ya sea teórica perspectiva conduce a los mismos cálculos que en la práctica.

Aunque podemos hacer un uso activo de la continua NB distribución, no hemos publicado nada en ella de forma explícita. Los artículos citados a continuación se explican las NB enfoque genómico de los datos, pero no hablan de la continua NB distribución de forma explícita.

En resumen, no me sorprende que el artículo que usted está estudiando obtenido resultados razonables de un continualized versión de la NB pdf, porque esa es nuestra experiencia también. El requisito clave es que debemos ser modelado de los medios y las desviaciones correctamente y que va a estar bien proporcionado los datos, ya sea entero o no, presenta la misma forma de media cuadrática de la varianza en la relación que el NB de distribución.

Referencias

Robinson, M., y Smyth, G. K. (2008). Pequeña muestra de la estimación de la binomial negativa de la dispersión, con aplicaciones a los datos de SAGE. Bioestadística 9, 321-332.

Robinson, MD, y Smyth, GK (2007). Moderado pruebas estadísticas para evaluar las diferencias en la etiqueta de la abundancia. La bioinformática 23, 2881-2887.

McCarthy, DJ, Chen, Y, Smyth, GK (2012). El análisis de expresión diferencial de los multifactorial de la RNA-Seq experimentos con respecto a la variación biológica. Los Ácidos Nucleicos De Investigación 40, 4288-4297.

Chen, Y, Lun, ATL, y Smyth, GK (2014). El análisis de expresión diferencial de los complejos RNA-seq experimentos con bordeadora. En: Análisis Estadístico de la Próxima Generación de la Secuencia de Datos, Somnath Datta y Daniel S Nettleton (eds), Springer, Nueva York, páginas 51--74. Preprint

Lun, ATL, Chen, y, y Smyth, GK (2016). Es DELICIOSO: una receta para la diferencial de análisis de la expresión de RNA-seq experimentos utilizando cuasi-verosimilitud métodos en la bordeadora. Métodos de la Biología Molecular 1418, 391-416. Preprint

Chen Y, Lun ATL, y Smyth, GK (2016). A partir de las lecturas a los genes de las vías: el análisis de expresión diferencial de RNA-Seq experimentos utilizando Rsubread y la bordeadora de cuasi-verosimilitud tubería. F1000Research 5, 1438.

19voto

Aksakal Puntos 11351

Mira este artículo: Chandra, Nimai Kumar, y Dilip Roy. Un continuo de versión de la distribución binomial negativa. Statistica 72, no. 1 (2012): 81.

Se define en el papel como la supervivencia de la función, que es un método natural desde neg binomial se introdujo en el análisis de fiabilidad:

$$S_r(x)=\begin{cases}q^x & \text{for}\ r=1 \\ \sum_{k=0}^{r-1}\binom {x+k-1}{k}p^kq^x & \text{for}\ r=2,3,\dots \end{casos}$$ donde$q=e^{-\lambda},\lambda\ge 0,p+q=1$$r\in\mathbb N,r>0$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X