16 votos

¿Es la distribución de Cauchy de alguna manera una distribución "impredecible"?

¿La distribución de Cauchy es de alguna manera una distribución "impredecible"?

Intenté hacerlo

cs <- function(n) {
  return(rcauchy(n,0,1))
}

en R para una multitud de valores de n y noté que generan valores bastante impredecibles ocasionalmente.

Comparado con por ejemplo

as <- function(n) {
  return(rnorm(n,0,1))
}

que siempre parece dar una "nube" de puntos compacta.

¿Por esta imagen debería parecerse a la distribución normal? Sin embargo, tal vez solo lo haga para un subconjunto de valores. ¿O tal vez el truco es que las desviaciones estándar de Cauchy (en la imagen de abajo) convergen mucho más lentamente (a la izquierda y a la derecha) y por lo tanto permite valores atípicos más severos, aunque con bajas probabilidades?

https://i.sstatic.net/zGTLU.png

Aquí, as son variables aleatorias normales y cs son variables aleatorias Cauchy.

introducir descripción de la imagen aquí

Pero por la extrema outliers, ¿es posible que las colas de la función de densidad de probabilidad de Cauchy nunca converjan?

9 votos

1. Tu pregunta es vaga / poco clara, por lo que es difícil responder; por ejemplo, ¿qué significa "impredecible" en tu pregunta? ¿a qué te refieres con "las desviaciones estándar de Cauchy" y la convergencia al final? No parece que estés calculando desviaciones estándar en ningún lugar. ¿desviaciones estándar de qué, exactamente? 2. Muchas publicaciones en el sitio discuten propiedades del Cauchy que pueden ayudarte a enfocar tu pregunta. También puede valer la pena consultar Wikipedia. 3. Sugiero evitar el término "forma de campana"; ambas densidades parecen tener aproximadamente forma de campana; simplemente llámalas por sus nombres.

4 votos

Ciertamente, el Cauchy es muy heavy tailed.

1 votos

He publicado algunos datos; espero que te ayuden a descubrir lo que quieres saber para que puedas refinar tu pregunta.

45voto

AdamSane Puntos 1825

Mientras que varios posts en el sitio abordan varias propiedades de la Cauchy, no logré localizar uno que realmente las exponga juntas. Espero que este sea un buen lugar para recopilar algunas. Tal vez amplíe esto.

Colas pesadas

Aunque la Cauchy es simétrica y aproximadamente en forma de campana, algo similar a la distribución normal, tiene colas mucho más pesadas (y menos de un "hombro"). Por ejemplo, hay una probabilidad pequeña pero distinta de que una variable aleatoria de Cauchy se encuentre a más de 1000 rangos intercuartílicos de la mediana, aproximadamente del mismo orden que una variable aleatoria normal que esté al menos a 2.67 rangos intercuartílicos de su mediana.

Varianza

La varianza de la Cauchy es infinita.

Edición: J.G. dice en los comentarios que es indefinida. Si tomamos la varianza como el promedio de la mitad de la distancia al cuadrado entre pares de valores, que es idéntico a la varianza cuando ambos existen, entonces sería infinita. Sin embargo, por la definición habitual J.G. tiene razón. [Sin embargo, en contraste con las medias muestrales, que realmente no convergen a nada a medida que n crece, la distribución de las varianzas muestrales sigue creciendo en tamaño a medida que el tamaño de la muestra aumenta; la escala aumenta proporcionalmente a n, o equivalentemente la distribución del logaritmo de la varianza crece linealmente con el tamaño de la muestra. Parece productivo considerar en realidad esa versión de la varianza que arroja infinito nos está diciendo algo.]

Las desviaciones estándar muestrales existen, por supuesto, pero cuanto mayor sea la muestra tienden a ser más grandes (por ejemplo, la desviación estándar muestral mediana en n=10 está alrededor de 3.67 veces el parámetro de escala (la mitad del rango intercuartílico), pero en n=100 es aproximadamente 11.9).

Media

La distribución de Cauchy ni siquiera tiene una media finita; la integral para la media no converge. Como resultado, ni siquiera se aplican las leyes de los grandes números; a medida que n crece, las medias muestrales no convergen a alguna cantidad fija (de hecho, no hay nada a lo que converger).

De hecho, la distribución de la media muestral de una distribución de Cauchy es la misma que la distribución de una sola observación (!). La cola es tan pesada que agregar más valores a la suma hace que sea bastante probable un valor extremadamente grande como para compensar simplemente dividir por un denominador más grande al tomar la media.

Predictibilidad

Ciertamente puedes producir intervalos de predicción perfectamente sensatos para observaciones de una distribución de Cauchy; hay estimadores simples, bastante eficientes que funcionan bien para estimar la ubicación y la escala y se pueden construir intervalos de predicción aproximados, por lo que en ese sentido, al menos, las variables de Cauchy son 'predecibles'. Sin embargo, la cola se extiende muy lejos, por lo que si deseas un intervalo de alta probabilidad, puede ser bastante amplio.

Si estás tratando de predecir el centro de la distribución (por ejemplo, en un modelo de tipo regresión), eso podría en cierto sentido ser relativamente fácil de predecir; la Cauchy es bastante puntiaguda (hay mucha distribución "cerca" del centro para una medida típica de escala), por lo que el centro puede estimarse relativamente bien si tienes un estimador apropiado.

Aquí tienes un ejemplo:

Generé datos a partir de una relación lineal con errores estándar de Cauchy (100 observaciones, intercepción=3, pendiente=1.5), y estimé líneas de regresión por tres métodos que son razonablemente robustos a los valores atípicos de y: línea del grupo Tukey 3 (rojo), regresión Theil (verde oscuro) y regresión L1 (azul). Ninguno es especialmente eficiente en la Cauchy - aunque todos serían excelentes puntos de partida para un enfoque más eficiente.

No obstante, los tres son prácticamente coincidentes en comparación con la variabilidad de los datos y están muy cerca del centro por donde se desarrollan los datos; en ese sentido la Cauchy es claramente "predecible".

La mediana de los residuos absolutos es sólo un poco mayor que 1 para cualquiera de las líneas (la mayoría de los datos están bastante cerca de la línea estimada); en ese sentido también, la Cauchy es "predecible".

relación lineal con errores de Cauchy y tres líneas de regresión ajustadas

Para el gráfico de la izquierda hay un valor atípico. Para ver mejor los datos, estreché la escala en el eje y a la derecha.

1 votos

Colas pesadas y varianza infinita están relacionadas, ¿verdad?

0 votos

Sin duda. El significado no definido también está relacionado con las colas pesadas.

0 votos

“hay estimadores simples y bastante eficientes que funcionan bien para estimar la ubicación y la escala, y se pueden construir intervalos de predicción aproximados” - ¿puede proporcionar las referencias?

2voto

Jay Querido Puntos 589

No, la distribución de Cauchy es una distribución muy predecible en el sentido de que los cuantiles están bien definidos. Si conoces $\mu$ y $\sigma$, entonces la probabilidad de ubicación de que una observación aparezca entre dos puntos, de un tamaño de muestra donde $n\to\infty$, está bien definida. Sin embargo, mientras que el 50% de los datos aparecerán en $\mu\pm\sigma$, el 99.95% central de los datos será $\mu\pm{636.62}\sigma$.

Además, $\sigma$ no es una desviación estándar; es un parámetro de escala. No hay media definida, por lo que los momentos superiores tampoco existen. A menudo se dice que la media y la varianza son infinitas y bajo una definición de la integral eso es casi verdad, pero bajo otra comprensión de la integral, simplemente no existen. Puedes pensar en una varianza o una media como una propiedad que algunas distribuciones tienen, pero otras no. Así como las narices son una propiedad de los vertebrados, si ves un árbol con nariz, entonces no es un árbol. Si ves una distribución con varianza, entonces no es la distribución de Cauchy.

La distribución de Cauchy aparece bastante en la naturaleza, particularmente donde hay alguna forma de crecimiento. También aparece donde las cosas giran, como las rocas rodando por colinas. La encontrarás como la distribución central de una fea mezcla de distribuciones en los rendimientos del mercado de valores, aunque no en los rendimientos de cosas como antigüedades vendidas en subastas. Los rendimientos de antigüedades también pertenecen a una distribución sin media ni varianza, pero no a una distribución de Cauchy. Las diferencias son creadas por las diferencias en las reglas de la subasta. Si cambiaras las reglas de la NYSE, entonces la distribución de Cauchy desaparecería, y aparecería una diferente.

Para entender por qué generalmente está presente, imagina que eres un postor en un conjunto muy grande de postores y postores potenciales. Dado que las acciones se venden en una doble subasta, la maldición del ganador no se aplica. En equilibrio, el comportamiento racional es ofertar tu valor esperado. Una expectativa es una forma de media. Una distribución de estimaciones medias convergerá a la normalidad a medida que el tamaño de la muestra tienda a infinito.

Por lo tanto, los precios, si la empresa no va a quebrar o ser comprada en una fusión, se distribuirán normalmente si no hay costo por liquidez (que lo hay). Si la cantidad de acciones no cambia, entonces el rendimiento para invertir en el tiempo t es $$r_t=\frac{p_{t+1}}{p_t}$$. Eso lo convierte en la razón de dos distribuciones normales. Si la integración se realiza alrededor de los precios de equilibrio, en lugar de en (0,0), terminarás con una distribución de Cauchy truncada. Si desagregas los rendimientos en transacciones individuales a lo largo del siglo XX, encontrarás que una Cauchy truncada coincide estrechamente con los rendimientos observados una vez que eliminas fusiones, costos de liquidez y quiebras.

Esto hace que el mercado de valores sea muy volátil, si uno piensa que el mercado de valores debería tener una distribución normal o log-normal, pero no inesperadamente volátil si esperas las colas pesadas.

He construido tanto las distribuciones predictivas bayesianas como las frecuentistas para la distribución de Cauchy y, según sus suposiciones, funcionan bien. La predicción bayesiana minimiza la divergencia de Kullback-Leibler, lo que significa que es tan cercana como puedes estar a la naturaleza en una predicción, para un conjunto de datos dado. La predicción frecuentista minimiza la divergencia de Kullback-Leibler promedio sobre muchas predicciones independientes de muchos muestras independientes. No necesariamente funciona bien, sin embargo, para una muestra individual como se esperaría con una cobertura promedio. Las colas convergen, pero lo hacen lentamente.

La distribución de Cauchy multivariante tiene propiedades aún más perturbadoras. Por ejemplo, aunque obviamente no puede tener covarianza ya que no hay media, tampoco tiene nada similar a una matriz de covarianza. Los errores de Cauchy siempre son esféricos si no está sucediendo nada más en el sistema. Además, aunque nada covaríe, tampoco nada es independiente. Para entender lo importante que eso podría ser en un sentido práctico, imagina dos países que están creciendo y que comercian entre sí. Los errores de uno no son independientes de los errores del otro. Mis errores influyen en tus errores. Si un país es tomado por un loco, los errores de ese loco se sienten en todas partes. Por otro lado, dado que los efectos no son lineales como se esperaría con una matriz de covarianza, los otros países pueden romper relaciones para minimizar el impacto. Corea del Norte es un ejemplo de esto.

Esto también es lo que hace tan peligrosa la guerra comercial de Trump. La segunda economía más grande del mundo después de la Unión Europea declaró la guerra económica a través del comercio contra cada otra economía individual y está financiando esa guerra endeudándose con el dinero para luchar contra aquellos con los que declaró la guerra. Si esas dependencias se ven obligadas a deshacerse, será feo de una manera de la que nadie tenga memoria viva. No habíamos tenido un problema similar desde la Administración Jackson cuando el Banco de Inglaterra embargó el comercio atlántico.

La distribución de Cauchy es fascinante porque aparece en sistemas de crecimiento exponencial y en forma de S. Confunden a la gente porque su vida cotidiana está llena de densidades que tienen una media y generalmente tienen una varianza. Esto dificulta la toma de decisiones porque se aprenden lecciones incorrectas.

0 votos

Me gusta la forma audaz en la que se mapean las propiedades matemáticas al comportamiento del mundo real en esta respuesta. ¿Pero no deberías mencionar que un Cauchy truncado (de ambos lados) tiene todos sus momentos finitos?

0 votos

Solo se trunca a la izquierda. La restricción presupuestaria planetaria nominal es estocástica a la derecha y dado que los sistemas monetarios no son sistemas conservativos, son infinitos a la derecha.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X