14 votos

Uso e interpretación correctos de los modelos gamma de inflación cero

Antecedentes: Soy un bioestadístico que actualmente lucha con un conjunto de datos de tasas de expresión celular. El estudio expuso una serie de células, recogidas en grupos de varios donantes, a ciertos péptidos. Las células expresan ciertos biomarcadores en respuesta, o no lo hacen. A continuación, se registran las tasas de respuesta de cada grupo de donantes. Las tasas de respuesta (expresadas en porcentajes) son el resultado de interés, y la exposición al péptido es el predictor.

Obsérvese que las observaciones se agrupan dentro de los donantes.

Dado que sólo dispongo de los datos resumidos, estoy tratando las tasas de respuesta de los donantes como datos continuos (al menos por ahora).

La complicación surge del hecho de que tengo muchos ceros en mis datos. Demasiados para ser ignorados. Estoy considerando la posibilidad de utilizar un modelo gamma inflado por ceros para hacer frente al hecho de que tengo datos continuos sesgados junto con una sobreabundancia de ceros. También he considerado el modelo Tobit, pero éste parece inferior, ya que asume la censura en un límite inferior, en contraposición a los ceros genuinos (los econometristas podrían decir que la distinción es discutible).

Pregunta: En general, ¿cuándo es apropiado utilizar un modelo gamma de inflación cero? Es decir, ¿cuáles son los supuestos? ¿Y cómo se interpretan sus inferencias? Agradecería los enlaces a documentos que discutan esto, si los tienen.

He encontrado un enlace en SAS-L en el que Dale McLerran proporciona el código NLMIXED para un modelo gamma cero-inflado, por lo que parece ser posible. No obstante, no me gustaría cargar a ciegas.

5voto

Tao Zhyn Puntos 1036

En primer lugar, no se ven auténticos ceros en los datos de la expresión. Tu biólogo lo está diciendo, como todos los biólogos, pero cuando un biólogo dice "es cero" en realidad quiere decir "está por debajo de mi umbral de detección, así que no existe". Es un problema de lenguaje debido a la falta de sofisticación matemática en el campo. Hablo desde mi experiencia personal.

La explicación de la Gamma inflada a cero en el enlace que proporcionas es excelente. El proceso físico que lleva a tus datos es, si lo entiendo, que se selecciona un donante, se le trata con un determinado péptido y se mide la respuesta de las células de ese donante. Hay un par de capas aquí. Una es la fuerza general de la respuesta del donante, que alimenta el nivel de expresión de cada célula particular que se mide. Si usted interpreta su variable Bernoulli en la Gamma inflada a cero como "la respuesta del donante es lo suficientemente fuerte como para medirla", entonces podría estar bien. Sólo hay que tener en cuenta que en ese caso se está mezclando el ruido de la expresión de la célula individual con la variación entre los donantes que responden fuertemente. Dado que el ruido en la expresión de una sola célula se distribuye aproximadamente de forma gamma, eso puede acabar causando demasiada dispersión en su distribución, algo que hay que comprobar.

Si la variación adicional de los donantes frente a las células no estropea su ajuste Gamma, y usted sólo está tratando de obtener la expresión frente al péptido aplicado, entonces no hay ninguna razón por la que esto no debería estar bien.

Si se desea un análisis más detallado, recomendaría construir un modelo jerárquico personalizado que se ajuste al proceso que lleva a sus mediciones.

5voto

Brenden Dufault Puntos 188

He encontrado una solución que me parece bastante elegante. Hay un excelente artículo en la literatura titulado "Análisis de datos de medidas repetidas con aglomeración en cero" que demuestra un modelo lognormal cero-inflado para datos correlacionados. Los autores proporcionan una macro SAS que se basa en PROC NLMIXED y es bastante fácil de implementar. La buena noticia es que se puede simplificar a los casos sin observaciones agrupadas omitiendo el repeated en la macro. La mala noticia es que NLMIXED todavía no tiene las numerosas estructuras de correlación que a menudo necesitamos, como la autorregresiva.

La macro se llama MIXCORR, y tiene una página Wiki muy útil que puedes encontrar aquí . La macro puede descargarse en la sección Macro SAS MIXCORR para datos con medidas repetidas y agrupación en cero .

Recomiendo encarecidamente todos estos enlaces. Espero que le resulten útiles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X