$\newcommand{\OLS}{\operatorname{OLS}}$Esto es esencialmente una pregunta acerca de la matemática, no estadística de la terminología, como lo que puedo decir.
De todos modos, el punto es que las estadísticas no son una función derivable de la muestra, o no $n-$veces continuamente diferenciable en función de la muestra.
En otras palabras, posiblemente hay lugares donde la respuesta de la estadística a los cambios en la muestra no es lo ideal, o es unappealingly abrupto (de ahí la terminología "suave"), de una forma lineal o funciones polinómicas de los datos, por ejemplo, nunca podría tener.
La página de la Wikipedia sobre las funciones lisas es probablemente innecesariamente técnica en los puntos, pero espero que algunas de las imágenes y prolongado debate puede dar alguna intuición para lo que está destinado a ser evocado por el término 'suavidad'.
Si una función es una "función derivable de la muestra momentos", entonces puede ser una función suave de la muestra momentos, dependiendo de en qué sentido "suave" está siendo usado en ese contexto. Yo más a menudo ven "suave" se utiliza para significar infinidad de veces continuamente diferenciable (por ejemplo, como polinomios o funciones lineales o de senos y cosenos), pero a veces, el término puede ser usado en sentido estricto, como la página de la Wikipedia menciona.
En cualquier caso, usted está definitivamente derecho que se relaciona con la diferenciabilidad -- que es la idea clave.
También vale la pena señalar que existen funciones que son continuas pero no "suave", la idea es que mientras que la continuidad es en general una buena regularidad de la propiedad, en muchos casos todavía permite un montón de indeseables un comportamiento patológico, mientras que un comportamiento patológico no puede ocurrir por la suave debido a que las funciones son incluso más bonito que aún continua.
Ejemplo: Consideremos, por ejemplo, el estimador LASSO con ortonormales covariables:
$$ \hat{\beta}_j = S_{N \lambda}(\hat{\beta}_j^{\OLS}) = \hat{\beta}_j^{\OLS} \max\left\{ 0, 1 - \frac{N \lambda}{\left|\hat{\beta}^{\OLS}_j \right|} \right\}, $$ where $\hat{\beta}^{OLS} = (X^T X)^{-1}X^Ty = X^T y$.
Primero tomamos nota de que $\hat{\beta}_j^{\OLS}$ es lineal en las coordenadas de $X$ $y$ desde $\hat{\beta}^{\OLS}$ es lineal en $X$$y$, por lo que (suponiendo que $X$ o $y$ representa la muestra) $\hat{\beta}_j^{\OLS}$ son completamente lisas funciones y no son la fuente de la no-uniformidad. En cambio, cualquier no-suavidad proviene de la función de máxima $\max$ se encuentra en la definición de $\hat{\beta}_j$, como trataré de convencer a usted a continuación.
Utilizamos la identidad de $\max\{x, y \} = \frac{x+y +|x-y|}{2}$ (discutido y demostrado aquí) para reescribir la expresión anterior de la siguiente manera: $$ \begin{array}{rcl} \hat{\beta}_j & = & \displaystyle\frac{\hat{\beta}_j^{\OLS}}{2}\left[ -\left( \frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|} - 1 \right) + \left|\frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|}-1\right| \enspace \right] \\ & = & \begin{cases} 0, & \text{when } \displaystyle\frac{N \lambda}{\left|\hat{\beta}^{\OLS}\right|} \ge 1 \\ \hat{\beta}_j^{\OLS}\left(1 - \displaystyle\frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|} \right), & \text{when } \displaystyle\frac{N \lambda}{\left|\hat{\beta}^{\OLS}\right|} \le 1 \end{cases} \end{array}$$
Escrita en esta forma, es obvio que tenemos, al menos, dos posibles fuentes de no-liso comportamiento: (1) cuando $\hat{\beta}_j^{\OLS}=0$, causando un denominador desaparecer, (2) y posible cúspides en el punto(s) donde: $$\frac{N \lambda}{\left| \hat{\beta}^{\OLS}_j \right|} = 1 \iff N\lambda = \left| \hat{\beta}^{\OLS}_j \right|,$$ since of course at these points $\hat{\beta}_j$ is the "gluing together" of two different functions $\left(0\text{ y }\hat{\beta}_j^{\OLS}\left(1 - \frac{N \lambda}{\left|\hat{\beta}_j^{\OLS}\right|} \right) \right)$ which, even though they have the same value at the points where $N\lambda = \left| \hat{\beta}^{\OLS}_j \right| $, may not necessarily "play nicely" together in such a way that the left- and right-hand derivatives agree for all $n$. The most basic example of a function for which this fails to happen is $|x|$ at the value $x=0$: it's first left-hand derivative is $-1$ and it's first right-hand derivative is $1$, so it is not smooth at $x=0$. I suspect that an analogous phenomenon likely happens for the function $\hat{\beta}_j$ at those points where $N \lambda = \left| \hat{\beta}^{\OLS}_j \right|$, causing $\hat{\beta}_j$ a no ser una función suave de sus entradas.
La función de $\hat{\beta}_j$ sólo debe ser suave, con respecto a los argumentos de entrada para ser considerado suave. Presumiblemente, los argumentos de entrada son la muestra en sí, o algunas de las funciones de $g$ de la muestra. Si $\hat{\beta}_j$ es una función de funciones $g$ de la muestra, entonces uno puede por composición $\hat{\beta}_j \circ g$ obtener una nueva función $\tilde{\hat{\beta}}_j$ que se salta el intermediario (es decir, devuelve el mismo salidas de interés y es directamente una función de la muestra). Por la regla de la cadena esta compuesta función de $\tilde{\hat{\beta}}_j = \hat{\beta}_j \circ g$ es suave si y sólo si ambas funciones $\hat{\beta}_j$ $g$ son lisas.