1) Yo no consideraría esto como una versión cuantitativa del teorema central del límite, sino como una versión cuantitativa de teoremas de la gran desviación (ambos están relacionados, por supuesto). Centrémonos en el resultado, y no en los métodos que se utilizan para obtenerlos. Dejemos que $(X_i)$ sea una secuencia de i.i.d, $\mathbb{R}$ -valorado, centrado variables aleatorias acotadas. Denotaré por $(S_n)$ la secuencia de sus sumas parciales. El principio de la gran desviación dice que existe una función de tasa $I: \mathbb{R} \to \mathbb{R}_+$ tal que, para cualquier conjunto abierto $O$ :
$$- \inf_O I \leq \liminf_{n \to + \infty} \frac{\ln \mathbb{P} (S_n/n \in O)}{n},$$
y para cualquier conjunto cerrado $F$ :
$$\liminf_{n \to + \infty} \frac{\ln \mathbb{P} (S_n/n \in F)}{n} \leq - \inf_F I.$$
En otras palabras, la probabilidad de que la suma $S_n$ es grande (digamos, $S_n \geq \varepsilon n$ para un fijo $\varepsilon$ ) disminuye exponencialmente en $n$ , más o menos a la velocidad $e^{- I (\varepsilon)n}$ .
Una característica notable de estos principios de gran desviación para la variable aleatoria i.i.d. es que la función $I$ que gobierna la velocidad del decaimiento, es la transformada de Lapaplace-legendre de la función característica de $X$ . En otras palabras, ¡exactamente lo que se obtiene con los límites de Chernoff! Así que los límites de Chernoff te dan un límite superior cuantitativo para los principios de la gran desviación:
$$\mathbb{P} (S_n/n \geq \varepsilon) \leq e^{- I(\varepsilon) n},$$
o de forma equivalente,
$$\frac{\mathbb{P} (S_n/n \geq \varepsilon)}{n} \leq - I(\varepsilon).$$
En un entorno más general, la función de tasa $I$ está relacionada con la entropía de algún sistema (se obtiene una entropía grande [es decir, pequeña para un físico - a menudo hay un cambio de signo] cuando la suma $S_n$ está lejos de su estado típico).
\==========
Hay un punto que es digno de mención, pero que aún no se ha planteado. Puedes demostrar que los límites de momento son más fuertes que los límites exponenciales. Usted sabe que, para cualquier $p \geq 0$ y cualquier $t > 0$ :
$$\mathbb{P} (|X| \geq t) \leq \frac{\mathbb{E} (|X|^p)}{t^p}.$$
Estos límites son más fuertes que los de Chernoff: si se conoce cada uno de los momentos de $X$ entonces los límites del momento le permiten obtener mejores límites en $\mathbb{P} (|X| \geq t)$ que los límites de Chernoff. Sin embargo, se comportan muy mal cuando se trata de sumas de variables aleatorias i.i.d. (porque los momentos cambian de forma no trivial), mientras que los límites exponenciales son muy fáciles de manejar:
$$\mathbb{E} (e^{\lambda S_n}) = \mathbb{E} (e^{\lambda X})^n.$$
\==========
2) Obviamente, los límites de Chernoff existen en cuanto la función característica $\mathbb{E} (e^{\lambda X})$ se define en una vecindad de $0$ , por lo que sólo se necesitan colas exponenciales para $X$ (y no la acotación). Además, si se quiere obtener un límite en una dirección (es decir, en $\mathbb{P} (S_n/n \geq \varepsilon)$ o $\mathbb{P} (S_n/n \leq -\varepsilon)$ , no en $\mathbb{P} (|S_n/n| \geq \varepsilon)$ ), sólo se necesitan colas exponenciales en la dirección correspondiente.
Si se asumen hipótesis más fuertes sobre las colas de $X$ se pueden obtener límites de Chernoff más fuertes. La acotación o subgaussianidad de $X$ son supuestos típicos.
Se pueden obtener límites similares (desigualdades de concentración) no sólo para las sumas aprciales de variables aleatorias i.i.d., sino también para algunas martingalas (véase la respuesta de Collin McQuillan), y para clases de procesos mucho, mucho más grandes. Este Página de Wikipedia le dará una idea, así como algunas palabras clave, si está interesado.