Reconozco haberme planteado esta pregunta durante bastante tiempo al principio de mi carrera. Una forma de convencerme de la respuesta fue adoptar una visión extremadamente práctica y aplicada de la situación, una visión que reconoce ninguna medida es perfecta. Veamos a dónde nos lleva.
El objetivo de este ejercicio es exponer los supuestos que podrían ser necesarios para justificar la mezcla un tanto simplista de densidades y probabilidades en las expresiones de las probabilidades. Por lo tanto, resaltaré estos supuestos siempre que se introduzcan. Resulta que se necesitan bastantes, pero son bastante suaves y cubren todas las aplicaciones que he encontrado (que obviamente serán limitadas, pero aún así incluyen bastantes).
El problema se refiere a un mixto distribución $F,$ que no es ni absolutamente continua ni singular. Teorema de descomposición de Lebesgue nos permite ver dicha distribución como una mezcla de una absolutamente continua (que por definición tiene una función de densidad $f_a$ ) y una singular ("discreta"), que tiene una función de masa de probabilidad $f_d.$ (Voy a ignorar la posibilidad de que exista un tercer componente, continuo pero no absolutamente continuo. Quienes utilizan esos modelos suelen saber lo que hacen y suelen tener todos los conocimientos técnicos para justificarlos).
En $F = F_\theta$ es miembro de una familia paramétrica de distribuciones, podemos escribir
$$F_\theta(x) = F_{a\theta}(x) + F_{d\theta}(x) = \int_{\infty}^x f_a(t;\theta)\mathrm{d}t + \sum_{t \le x} f_d(t;\theta).$$
(La suma es a lo sumo contable, por supuesto.) Aquí, $f_a(\,;\theta)$ es una función de densidad de probabilidad multiplicada por algún coeficiente de mezcla $\lambda(\theta)$ y $f_d(\,;\theta)$ es una función de masa de probabilidad multiplicada por $1-\lambda(\theta).$
Interpretemos cualquier observación $x_i$ en un conjunto de datos iid $X=(x_1,x_2,\ldots, x_n)$ como "realmente" significa que tenemos conocimiento cierto de que un hipotético valor subyacente verdadero $y_i$ se encuentra en un intervalo $(x_i-\delta_i, x_i+\epsilon_i]$ en torno a $x_i,$ pero por lo demás no tienen información sobre $y_i.$ Suponiendo que conozcamos todos los deltas y los épsilones, esto ya no plantea ningún problema para construir una probabilidad, porque todo puede expresarse en términos de probabilidades:
$$\mathcal{L}(X;\theta) = \prod_i \left(F_\theta(x_i + \epsilon_i) - F_\theta(x_i - \delta_i)\right).$$
Si el apoyo de $F_{d\theta}$ no tiene puntos de condensación en ningún $x_i,$ su contribución a la probabilidad se reducirá a lo sumo a un único término siempre que los épsilons y los deltas sean lo suficientemente pequeños: no habrá contribución cuando $x_i$ no está en su apoyo.
Si suponemos $f_a(\,;\theta)$ es Lipschitz continuo en todos los valores de los datos, entonces uniformemente en los tamaños de los épsilones y deltas podemos aproximar la parte absolutamente continua de $F_\theta(x_i)$ como
$$F_{a\theta}(x_i + \epsilon_i) - F_{a\theta}(x_i - \delta_i) = f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|).$$
La uniformidad de esta aproximación significa que a medida que tomamos tous que los épsilons y los deltas se hagan pequeños, tous el $o()$ términos también se hacen pequeños. En consecuencia, existe un valor infinitamente pequeño $\epsilon(\theta)\gt 0,$ gobernada por las contribuciones de todos estos términos de error, para los que
$$\eqalign{ \mathcal{L}(X;\theta) &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + o(|\epsilon_i + \delta_i|) + f_d(x_i;\theta)\right)\\ &= \prod_i \left(f_a(x_i;\theta)(\epsilon_i + \delta_i) + f_d(x_i;\theta)\right)\ + \ o(\epsilon(\theta)). }$$
Esto sigue siendo un poco lioso, pero muestra por dónde vamos. En el caso de datos censurados, normalmente sólo una parte de cada término del producto será distinta de cero, porque estos modelos suelen suponer que el soporte de la parte singular de la distribución es disjunto del soporte de la parte continua, sea cual sea el parámetro $\theta$ podría ser. (Concretamente: $f_d(x) \ne 0$ implica $F_a(x+\epsilon)-F_a(x-\epsilon) = o(\epsilon).$ ) Esto nos permite dividir el producto en dos partes y podemos factorizar las contribuciones de todos los intervalos fuera de la parte continua:
$$\mathcal{L}(X;\theta) = \left(\prod_{i=1}^k (\epsilon_i + \delta_i) \right)\prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta).$$
(Sin pérdida de generalidad, he indexado los datos de modo que $x_i, i=1, 2, \ldots, k$ contribuyen a la parte continua y por lo demás $x_i, i=k+1, k+2, \ldots, n$ contribuyen a la parte singular de la probabilidad).
Esta expresión deja claro que
Dado que las anchuras de intervalo $\epsilon_i+\delta_i$ son fijos, no contribuyen a la probabilidad (que se define sólo hasta algún múltiplo constante positivo).
En consecuencia, podemos trabajar con la expresión
$$\mathcal{L}(X;\theta) = \prod_{i=1}^k f_a(x_i;\theta) \ \prod_{i=k+1}^n f_d(x_i;\theta)$$
al construir cocientes de probabilidad o maximizar la probabilidad. Lo bueno de este resultado es que nunca necesitamos conocer los tamaños de los intervalos finitos que se utilizan en esta derivación: los épsilones y los deltas desaparecen. Sólo necesitamos saber que podemos hacerlos lo suficientemente pequeños para que la expresión de probabilidad con la que trabajamos sea una aproximación adecuada a la expresión de probabilidad que utilizaríamos si conociéramos los tamaños de los intervalos.