Como se ha mencionado en los comentarios, no es más general que el estado se con $u(X)$ donde $u$ no es una función negativa, o para $X$ donde $X$ se supone que para ser no negativo. Una forma de ver esto es que la familia de todas las variables aleatorias que se puede expresar como $u(X)$ con las condiciones anteriores se ve que coinciden con la familia de todos los no-negativo de las variables aleatorias. (Es fácil ver esto con el hecho de que todas las variables aleatorias pueden ser definidos en el espacio de muestreo $[0,1]$ mediante la aplicación de una función medible a un uniforme de la variable aleatoria.)
Ahora, para el (psicológica) de la pregunta de por qué un autor que el estado, la desigualdad de una manera o de la otra: es con el fin de facilitar la aplicación posterior. Hay 3 formas en las que este "generalizada" de la desigualdad de Chebyshev se utiliza: para el "primer momento del método" (Markov en la desigualdad) con $u(X)=|X|$, para el "segundo momento del método" (Chevyshev la desigualdad) con $u(X)=X^2$, y para probar la concentración de las desigualdades mediante la toma de $u(X)=e^{tX}$ y la optimización de más de $t$ en los que resulta obligado (como demostrando Hoeffding/Azuma/Bernstein/etc concentración de las desigualdades). En los tres casos, uno está demostrando una desigualdad para la variable aleatoria $X$, pero a lo largo de la manera en que uno es la introducción de un auxiliar de la variable aleatoria $u(X)$ y la aplicación de la básico de la desigualdad para que la variable aleatoria. Ahora el "no trivial" parte de la argumentación es la cocina de una adecuada función de $u(\cdot)$, por lo que es conveniente destacar.