Puedo pensar en al menos dos "aplicaciones directas" de Bernstein, la desigualdad, y que son diferentes de los suyos. Yo no diría que la suya es incorrecta, pero para mí no es una "aplicación directa".
Primera Aplicación Directa
Considerar la posibilidad de combinar todos los $Y_i$ y todos los $Z_i$ como un solo conjunto. En resumen, esto le da al término $\frac23 \max\{ M_1, M_2\}\cdot t\,$ en lugar de $\frac23 [ M_1 + M_2 ]\cdot t\,$ en su expresión, con otros términos de la misma.
Dado que se trata en el denominador del exponente negativo, su $M_1 + M_2 > \max\{ M_1, M_2\}$ es más conservadora, con toda la $\exp(-\text{blah})$, siendo más grande.
La explicación abajo si es necesario:
Desde $Y_i$ e $Z_i$ son independientes dentro de cada grupo y a cada uno de los otros, junto con los intervalos de $[c_i, d_i]$ e $[e_i, f_i]$ ser distinto, para empezar, podemos combinar $Y_i$ e $Z_i$ como un solo conjunto.
Es decir, tenemos un conjunto de $i = 1,2,\ldots, (n_2+n_1)$ que será denotado $W_i$, que la delimitación de los intervalos de se $[c_i, d_i]$ para el primer $n_1$ términos y $[e_{i-n_1}, f_{i-n_1}]$ para el resto de las $i = 1+n_1,2+n_1,\ldots,n_2+n_1$. (el $c_i, d_i, e_i, f_i$ se dan como en tu pregunta declaración)
Por lo tanto, la aplicación de la definición (citando su declaración en la cuestión post) $M = \max_{i} \big\{b_i - E[X_i]\big\}$, aquí tenemos el "$M$ " como
$$\max\left\{ \max_{i=1\sim n_1} \big\{d_i - E[Y_i]\big\} ~, ~ \max_{i=1\sim n_2} \big\{f_i - E[Z_i]\big\} \right\} = \max\{ M_1, M_2\}$$
Segunda Aplicación Directa
Considere la posibilidad de la declaración equivalente de la desigualdad en términos del complemento (CDF en lugar de la cola):
$P $\left( S_{n_1} - E[S_{n_1}] \leq x \right) > \mathcal{P}_1(x) \equiv 1 - \exp\left[ -x^2 \left( 2\sum_{i=1}^{n_1}\operatorname{Var} (Y_i) + \frac{2}{3} M_1 x \right)^{-1} \right] \\
P\left( S_{n_2} - E[S_{n_2}] \leq x \right) > \mathcal{P}_2(x) \equiv 1 - \exp\left[ -x^2 \left( 2\sum_{i=1}^{n_2}\operatorname{Var} (Z_i) + \frac{2}{3} M_2 x \right)^{-1} \right] $$
de nuevo, todas las $S_{n_1}$ etc son definidos por usted.
La probabilidad deseada es una convolución como integral, debido a que el producto directo de las probabilidades a partir de la independencia:
\begin{align*}
P\left( S_{n_1}+S_{n_2} -E[S_{n_1}+S_{n_2}] > t \right) &= 1 - P\left( S_{n_1}+S_{n_2} -E[S_{n_1}+S_{n_2}] \leq t \right)\\
&= 1 - \int_{u = -\infty}^{ \infty} P\left( S_{n_1} -E[S_{n_1}] \leq t \right)\cdot P\left( S_{n_2} -E[S_{n_2}] \leq t-u \right)\,\mathrm{d} u \\
&\leq 1 - \int_{u = -\infty}^{ \infty} \mathcal{P}_1(u) \mathcal{P}_2(t-u) \,\mathrm{d} u
\end{align*}
Una vez que averiguar el rango adecuado para $t$ a reemplazar la integración del límite inferior $-\infty$ y superior de $\infty$, esta integral no es difícil.
De todos modos, esto es lo que yo considero una "aplicación directa" de Bernstein, la desigualdad, y definitivamente no es la misma que la suya.