Una opción son Lambert W variables aleatorias (sesgada, heavy-tailed), que puede ser parametrizado como $f(y \mid \mu_x, \sigma_x, \gamma)$ o $f(y \mid \mu_x, \sigma_x, \delta_{\ell}, \delta_r, \alpha)$, respectivamente (Descargo de responsabilidad: yo soy el autor de estos, así que estoy sesgado en cuanto a si son interpretables o no, me parece def mucho más interpretables de una asinh() función ;) ).
Como usted se preocupa por el 3er y 4to momentos, el doble de pesado de cola Lambert W x Gaussiano (o de Tukey h / hh como caso especial) puede ser útil para mirar. Que surgen como no-lineal de la transformación de $N(\mu_x, \sigma_x^2)$ variable aleatoria $X$ a (ajuste $\alpha = 1$ por simplicidad)
$$
Y = \mu_x + \sigma_x \cdot \left( U \exp\left(\frac{\delta}{2} \cdot U^{2}\right) \right) \quad U := \frac{X - \mu_x}{\sigma_x} \sim N(0, 1)
$$
Puede ser extendida a una versión sesgada, permitiendo $\delta$ a ser diferentes para el lado izquierdo ($X < \mu_x$) vs el lado derecho ($X > \mu_x$); por lo tanto $\delta \rightarrow (\delta_l, \delta_r)$. Claramente, $Y \sim N(\mu_x, \sigma_x^2)$ si $\delta = 0$.
La interpretación es que hay un proceso latente $X$ que es Gaussiano; sin embargo, sólo observar y medir la extrema sesgada / heavy-tailed versión de la misma a través de $Y$. Como ejemplo tomemos el mercado de valores: aquí se podría pensar de $X$ "noticias" se producen en el mundo (de Gauss), pero solo podemos observar y medir a través de la lente de colectivos mercado de acciones, y como sabemos que la gente enloquezca más raro eventos (adición de pesado-colas); y que la gente reacciona más extremas a las noticias negativas que positivas (la adición de asimetría). Esta respuesta colectiva es capturada a través de $\delta_l$ $\delta_r$ parámetros, que empujan eventos lejos de la media incluso más lejos (la generación de pesadas colas). Obviamente, esto no debe ser tomado como una explicación literal del mercado, pero como (una) interpretación (ver Tabla 4 Y Figura 7 para una ilustración sobre el SP500 devuelve).
La distribución de $Y$, $f(y \mid \mu_x, \sigma_x, \delta_l, \delta_r)$, tiene las propiedades que usted solicite en 1. Y 2. (set $\delta \equiv 0$) y 3. (ver Eq. (23) aquí); re 4.: Supongo que te refieres a que desea excluir los casos patológicos que son teóricamente interesante, pero prácticamente inútil. Para el caso de varias solicitudes en los documentos originales, así como varios puestos de aquí que ilustran las aplicaciones de la misma con las simulaciones y ejemplos del mundo real (Cómo transformar los datos a la normalidad?, Cómo transformar leptokurtic de distribución a la normalidad?, Transformaciones aproximada de la normalidad con alta curtosis de los datos) debería ser suficiente.