Antecedentes: Soy un bioestadístico que actualmente lucha con un conjunto de datos de tasas de expresión celular. El estudio expuso una serie de células, recogidas en grupos de varios donantes, a ciertos péptidos. Las células expresan ciertos biomarcadores en respuesta, o no lo hacen. A continuación, se registran las tasas de respuesta de cada grupo de donantes. Las tasas de respuesta (expresadas en porcentajes) son el resultado de interés, y la exposición al péptido es el predictor.
Obsérvese que las observaciones se agrupan dentro de los donantes.
Dado que sólo dispongo de los datos resumidos, estoy tratando las tasas de respuesta de los donantes como datos continuos (al menos por ahora).
La complicación surge del hecho de que tengo muchos ceros en mis datos. Demasiados para ser ignorados. Estoy considerando la posibilidad de utilizar un modelo gamma inflado por ceros para hacer frente al hecho de que tengo datos continuos sesgados junto con una sobreabundancia de ceros. También he considerado el modelo Tobit, pero éste parece inferior, ya que asume la censura en un límite inferior, en contraposición a los ceros genuinos (los econometristas podrían decir que la distinción es discutible).
Pregunta: En general, ¿cuándo es apropiado utilizar un modelo gamma de inflación cero? Es decir, ¿cuáles son los supuestos? ¿Y cómo se interpretan sus inferencias? Agradecería los enlaces a documentos que discutan esto, si los tienen.
He encontrado un enlace en SAS-L en el que Dale McLerran proporciona el código NLMIXED para un modelo gamma cero-inflado, por lo que parece ser posible. No obstante, no me gustaría cargar a ciegas.