Usted está suponiendo implícitamente la $(X_i,Y_i)$ son iid. Por lo tanto, usted puede libremente re-índice de las observaciones $(x_i,y_i)$, de modo que $x_0 = 0 \le x_1 \le x_2 \cdots \le x_n \le 1 = x_{n+1}$. La definición de $Y_i$ implica que existe un índice $k$ para los que
$$y_1 = y_2 = \cdots = y_k = 1;\ y_{k+1}=y_{k+2}=\cdots=y_n = 0.$$
Al $p$ es tal que $x_k \le p \le x_{k+1}$ la probabilidad es cero y es igual a
$$L(p) = p^k(1-p)^{n-k}.$$
Para cualquier otro valor de $p$ la probabilidad es cero, lo que demuestra podemos limitar la búsqueda de un máximo para el intervalo de $[x_k, x_{k+1}]$. En el interior de este intervalo el registro de probabilidad
$$\Lambda(p) = k\log(p) + (n-k)\log(1-p)$$
ha derivado
$$\frac{d\Lambda}{dp}(p) = \frac{k}{p} - \frac{n-k}{1-p}$$
el cual (como una función del intervalo de $(0,1)$) es positivo para las pequeñas $p$, negativo para la gran $p$, y cero donde $p=k/n$. Esto lleva a tres circunstancias:
Al$x_k \lt k/n \lt x_{k+1}$,$\hat p = k/n$. Por otra parte, $\Lambda$ es suave en un barrio de $\hat p$ (lo que implica la costumbre de Hesse/Fisher Información/puntuación se aplican las técnicas para un gran $n$).
Al$k/n \le x_k$,$\hat p = x_k$. Sin embargo, $\Lambda$ es discontinua en este valor, por lo que la costumbre MLE estimaciones de los errores estándar, los intervalos de confianza, etc no se aplican.
Al$k/n \ge x_{k+1}$,$\hat p = x_{k+1}$. La misma precaución se aplica, como en (2).
Podría ser de interés para calcular las posibilidades de estos tres casos. En (1), exactamente $k$ de la $n$ $x_i$ están en el intervalo de $[0, p]$ $n-k$ son en su complemento. Las posibilidades de este Binomio evento es $\binom{n}{k}p^k(1-p)^{n-k}$. En esta oportunidad se aproxima a cero asintóticamente (en $O(n^{-1/2})$ de la tarifa). Por lo tanto para grandes $n$ se puede esperar que en el caso (1) rara vez se mantiene.