Desplazamientos en las regresiones de Poisson
Empecemos por ver por qué utilizamos un desplazamiento en una regresión de Poisson. A menudo queremos hacerlo para controlar la exposición. Dejemos que $\lambda$ sea la tasa de referencia por unidad de exposición y $t$ sea el tiempo de exposición en las mismas unidades. El número esperado de eventos será $\lambda \times t$ .
En un modelo GLM estamos modelando el valor esperado utilizando una función de enlace $g$ Es decir
$$g(\lambda t_i) = \log(\lambda t_i) = \beta_0 + \beta_1x_{1,i} + \dots $$
donde $t_i$ es la duración de la exposición del individuo $i$ y $x_i$ es el valor de la covariable para el individuo $i$ . La elipsis simplemente indica los términos de regresión adicionales que podemos añadir.
Podemos simplificar la expresión anterior
$$\log(\lambda) = \log(t_i) + \beta_0 +\beta_1x_{1,i} + \dots$$
El $\log(t_i)$ es simplemente una "compensación" añadida a la regresión de Poisson, ya que no es un producto de ninguno de los parámetros del modelo que vamos a estimar.
Regresión binomial
En una regresión binomial, que suele utilizar un enlace logit, es decir:
$$g(p_i) = \textrm{logit}(p_i) = log\left(\frac{p_i}{1-p_i}\right) = \beta_0 +\beta_1x_{1,i}+\dots $$
Se puede ver que será difícil derivar un modelo para $p_i$ que producirá un desplazamiento constante.
Por ejemplo, si $p_i$ es la probabilidad de que una cualquier paciente el día $i$ tiene un incidente. Será una función de los pacientes individuales disponibles en ese día. Como dijo jboman, es más fácil derivar el complemento de no incidencia, que determinar directamente la probabilidad de al menos un incidente.
Dejemos que $p_{i,j}^*$ sea la probabilidad de que un paciente $j$ teniendo un incidente en el día $i$ . La probabilidad de que ningún paciente tenga un incidente el día $i$ será $\prod_{j=1}^{N_i}(1-p^*_{i,j})$ , donde $N_i$ es el número de pacientes en el día $i$ . Por el complemento, la probabilidad de que al menos un paciente tenga un incidente será, $$p_i = 1-\prod_{j=1}^{N_i}(1-p^*_{i,j}).$$
Si estamos dispuestos a asumir que la probabilidad de que cualquier paciente tenga un incidente en cualquier día es la misma, podemos simplificar esto a $$p_i = 1-(q^*)^{N_i},$$ donde $q^*= 1-p^*$ y $p^*$ es la probabilidad de incidencia compartida.
Si sustituimos esta nueva definición de $p_i$ en nuestra función de enlace logit $g(p_i)$ lo mejor que podemos hacer en términos de simplificación y reordenación es $\log\left((q^*)^{-N} -1 \right)$ . Esto aún no nos deja con un término constante que pueda ser factorizado.
Por lo tanto, en este caso no podemos utilizar una compensación.
Lo mejor que se puede hacer es discretizar el problema (como sugiere jboman), se pueden crear franjas para el número de pacientes y estimar un valor separado para $p$ para cada uno de estos contenedores. De lo contrario, tendrá que derivar un modelo más complicado.