30 votos

Diferencias entre distribuciones heavy tail y fat tail

Pensé que heavy tail = cola gruesa, pero algunos artículos que leí me dieron la sensación de que no lo son.

Uno de ellos dice: heavy tail significa que la distribución tiene momento j infinito para algún entero j. Además, todas las funciones de distribución en el dominio potencial de atracción de una distribución de Pareto son heavy-tailed. Si la densidad tiene un pico central alto y colas largas, entonces la curtosis suele ser grande. Una función de distribución con curtosis mayor a 3 es fat-tailed o leptocúrtica. Todavía no tengo una distinción concreta entre estos dos (heavy tail vs. fat tail). Se agradecerían cualquier pensamiento o referencia a artículos relevantes.

1 votos

Gran pregunta. Hay una gran cantidad de otros descriptores de colas que parecen ser algo intercambiables a primera vista. En particular, de cola larga (que a veces se utiliza indistintamente con cola pesada y derecha), si tomas la primera oración del artículo de Wikipedia al pie de la letra, parece ser un superconjunto de colas pesadas y difíciles (como se definen más rígidamente en sus propias páginas).

1 votos

Me encontré con una distribución con valores atípicos (cambio semanal % del S&P 500) y me interesé en este tema. Hay casos en los que la integral de la MGF no converge, pero todos los momentos existen. Para los datos de acciones, parece que se ajusta una distribución t con 3 grados de libertad (excepto por la asimetría).

23voto

Nathan Long Puntos 30303

Diría que la definición usual en teoría de probabilidad aplicada es que una distribución con cola pesada a la derecha es aquella con una función generadora de momentos infinita en $(0, \infty)$, es decir, $X$ tiene cola pesada a la derecha si $$E(e^{tX}) = \infty, \quad t > 0.$$ Esto concuerda con Wikipedia, que también menciona otras definiciones usadas como la que mencionas (alguno de los momentos es infinito). También hay subclases importantes como las distribuciones de colas largas y las distribuciones subexponenciales. El ejemplo estándar de una distribución de cola pesada, de acuerdo con la definición anterior, con todos los momentos finitos, es la distribución log-normal.

Es posible que algunos autores utilicen indistintamente los términos colas gordas y colas pesadas, mientras que otros hacen una distinción entre ambos. Yo diría que cola gorda puede usarse de manera más vaga para indicar más gruesa de lo normal y a veces se utiliza en el sentido de leptocúrtico (curtosis positiva) como indicas. Un ejemplo de tal distribución, que no tiene cola pesada según la definición anterior, es la distribución logística. Sin embargo, esto no concuerda con por ejemplo Wikipedia, que es mucho más restrictiva y requiere que la cola (derecha) tenga un decaimiento de ley de potencia. El artículo de Wikipedia también sugiere que cola gorda y cola pesada son conceptos equivalentes, aunque el decaimiento de ley de potencia es mucho más fuerte que la definición de colas pesadas dada anteriormente.

Para evitar confusiones, recomendaría utilizar la definición de cola pesada (a la derecha) anterior y olvidarse de colas gordas, sea lo que sea eso. La razón principal detrás de la definición anterior es que en el análisis de eventos raros hay una diferencia cualitativa entre distribuciones con función generadora de momentos finita en un intervalo positivo, y aquellas con función generadora de momentos infinita en $(0, \infty)$.

0 votos

Gracias por tu respuesta. Ahora tengo una mejor comprensión. ¿Podrías desarrollar tu última oración: "el análisis de extremos hay una diferencia cualitativa entre las distribuciones con función generadora de momentos finita en un intervalo positivo y aquellas con función generadora de momentos infinita en (0,)"?

2 votos

@Melon, seguro. Primero, he editado "extremos" a "eventos raros", lo cual considero más apropiado. A lo que me refería, en particular, es que puedes usar la técnica de cambio exponencial de medida si tienes una cola ligera (es decir, no una cola pesada) y necesitas otras herramientas, y obtienes diferentes tipos de resultados si la cola es pesada. Una referencia es el Capítulo XIII en Probabilidad Aplicada y Colas.

0 votos

¿Por qué estás hablando de las colas derechas en los corchetes?

3voto

Aria Puntos 76

NN Taleb, P Cirillo (2019) abordan directamente este tema en Incertidumbre epistémica ramificada y grosor de las colas donde afirman:

Desde el punto de vista de la estadística de valores extremos, tanto la distribución Gamma como la Lognormal son distribuciones de colas pesadas, lo que significa que su cola derecha tiende a cero más lentamente que una función exponencial, pero no "verdaderamente" de colas gruesas, es decir, su cola disminuye más rápidamente que una ley de potencias [31]. Desde el punto de vista de la teoría de valores extremos, ambas distribuciones se encuentran en el dominio de atracción máximo del caso Gumbel de la distribución de Valor Extremo Generalizada [9], [14], y no en el caso Fréchet, es decir, el caso de colas gruesas propiamente dicho. Como consecuencia, los momentos de estas distribuciones siempre serán finitos.

2 votos

Dado que la cola es una propiedad de una distribución, es difícil determinar en el contexto de esta pregunta lo que estás afirmando con "la diferencia [entre distribuciones de cola pesada y de cola gorda] depende de la distribución". Simplemente no logro entender eso.

2voto

Hoogendijk Puntos 45

Primero puede haber colas izquierdas y colas derechas, luego colas largas y colas cortas. Se puede pensar en una distribución de cola corta como teniendo un rango finito, llamado soporte. Y una cola larga tiene un soporte semi-infinito en esa dirección. Para la pesadez de la cola derecha, se hace una comparación de funciones de supervivencia (RVs) o funciones de densidad cumulativa complementarias (1-CDF), típicamente examinando el logaritmo de la razón de dos distribuciones diferentes. En general, de cola pesada significa más pesado que la distribución exponencial, y de cola ligera significa más ligero que eso. Un subconjunto de distribuciones de colas más pesadas se llama "colas gordas". Desde una perspectiva histórica es muy probable que el concepto de cola gorda se relacione con el tipo I de distribución de Pareto, es decir, \begin{equation}\label{eq:PD} \text{PD}(t; \alpha, \beta)= \dfrac{\alpha}{t} \left(\dfrac{\beta}{t}\right) ^{\alpha } \theta(t-\beta)\;, \end{equation}

donde $\alpha$ es el parámetro de forma, $\beta$ es un parámetro de escala y $\theta(\cdot)$ es la función de paso unitario tal que $\theta(t-\beta)$ es la función de paso unitario retrasada en el tiempo por $\beta$, y se usa para hacer un producto que no es cero solo cuando $t> \beta$.

Desde Juran, "El Principio de Pareto (Sic, regla 80-20) recibe su nombre del economista nacido en Italia Vilfredo Pareto (1848-1923), quien observó que relativamente pocas personas tenían la mayoría de la riqueza (20%) - allá por 1895. Pareto desarrolló modelos matemáticos logarítmicos para describir esta distribución no uniforme de la riqueza y el matemático M.O. Lorenz desarrolló gráficos para ilustrarla."

A continuación, consideremos la actitud hacia la riqueza en ese momento. Renzaho cita a Grivetti diciendo "A principios del siglo XX en América del Norte la obesidad era admirada; los consumidores de clase alta exhibían su riqueza alrededor de la cintura. Mejillas gordas y estómagos amplios eran señales visuales de que los individuos estaban saludables, no infectados con el temido cuerpo tuberculosis. Las fotografías de ejecutivos americanos tomadas a finales del siglo XIX y principios del XX revelan que la ingesta dietética de los caballeros adinerados regularmente excedía las calorías gastadas."

La historia de esos tiempos otorga considerable peso a esas palabras. Según el censo de Estados Unidos de 1910, la tuberculosis, A.K.A., "consumption", que literalmente consume el cuerpo desde el interior, había sido endémica durante décadas y era responsable de aproximadamente 15 muertes por cada 1,000 habitantes por año, o, si lo desea, aproximadamente 30 veces la tasa de mortalidad anual por SARS-CoV-2. Por lo tanto, la idea más moderna de que la delgadez es saludable no era plausible en esa época.

A continuación, el término "fat cats" comenzó a describir a los donantes políticos adinerados alrededor de 1920 o antes y el trabajo de Pareto fue traducido por primera vez al inglés en 1916. Wesolowski et al. resumen las actitudes predominantes de esos tiempos en una nota al pie, "Irónicamente, la distribución de riqueza de cola gorda inspiró las políticas económicas de Karl Marx [49], así como las de Benito Mussolini como reacciones extremas diametralmente opuestas a las mismas estadísticas [50]." y atribuyen el significado de colas gordas de la siguiente manera, "La forma estadística de una ley de potencias es la distribución de Pareto (PD), que al igual que la distribución de Cauchy, tiene colas tan pesadas que confieren propiedades estadísticas inusuales y han recibido el nombre de distribuciones de colas gordas. Las leyes de potencias son independientes de la escala y intrínsecamente fractales."

En ese trabajo, [49] se refiere a Of Fat Cats and Fat Tails: From the Financial Crisis to the 'New' Probabilistic Marxism y [50] se refiere a Pareto and Fascism Reconsidered by Zanden. Que Vilfredo Pareto tuviera a Benito Mussolini como su estudiante más conocido no debería pasar desapercibido.

0voto

Marcus Johansson Puntos 101

diferentes colas en distribuciones

Este video es un gran recurso sobre diferentes colas, cada una explicada individualmente.
Las colas gruesas son una subclase de colas pesadas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X