28 votos

Ejemplos reales de distribuciones con asimetría negativa

Inspirado por " ejemplos reales de distribuciones comunes "Me pregunto qué ejemplos pedagógicos utiliza la gente para demostrar la asimetría negativa. Hay muchos ejemplos "canónicos" de distribuciones simétricas o normales que se utilizan en la enseñanza, aunque algunos como la altura y el peso no sobrevivan a un examen biológico más profundo. La presión arterial podría estar más cerca de la normalidad. Me gustan los errores de medición astronómicos: de interés histórico, intuitivamente no es más probable que se sitúen en una dirección que en otra, con errores pequeños más probables que grandes.

Entre los ejemplos pedagógicos más comunes de asimetría positiva se encuentran los ingresos de las personas; el kilometraje de los coches usados en venta; los tiempos de reacción en un experimento de psicología; los precios de las viviendas; el número de reclamaciones de accidentes de un cliente de seguros; el número de hijos en una familia. Su razonabilidad física se debe a que están limitados por debajo (normalmente por cero), y los valores bajos son plausibles, incluso comunes, aunque es bien sabido que se dan valores muy grandes (a veces órdenes de magnitud superiores).

En el caso de la inclinación negativa, me parece más difícil dar ejemplos inequívocos y vívidos que un público más joven (estudiantes de secundaria) pueda captar intuitivamente, quizá porque menos distribuciones de la vida real tienen un límite superior claro. Un ejemplo de mal gusto que me enseñaron en el colegio fue el del "número de dedos". La mayoría de la gente tiene diez, pero algunos pierden uno o más en accidentes. El resultado era que "el 99% de la gente tiene un número de dedos superior a la media". Polidactilia complica la cuestión, ya que diez no es un límite superior estricto; dado que tanto los dedos que faltan como los que sobran son eventos raros, puede que los estudiantes no tengan claro qué efecto predomina.

Suelo utilizar una distribución binomial con alta $p$ . Pero los estudiantes suelen encontrar que "el número de componentes satisfactorios en un lote está sesgado negativamente" es menos intuitivo que el hecho complementario de que "el número de componentes defectuosos en un lote está sesgado positivamente". (El libro de texto es de temática industrial; yo prefiero huevos rotos e intactos en una caja de doce). Quizá los alumnos piensen que el "éxito" debe ser raro.

Otra opción es señalar que si $X$ tiene un sesgo positivo, entonces $-X$ está sesgado negativamente, pero situar esto en un contexto práctico ("los precios negativos de la vivienda están sesgados negativamente") parece condenado al fracaso pedagógico. Aunque enseñar los efectos de las transformaciones de los datos tiene sus ventajas, parece prudente dar primero un ejemplo concreto. Yo preferiría uno que no pareciera artificial, en el que la inclinación negativa fuera bastante inequívoca y en el que la experiencia vital de los alumnos les permitiera conocer la forma de la distribución.

21voto

Silverfish Puntos 6909

Nick Cox comentó acertadamente que "la edad al morir está sesgada negativamente en los países desarrollados", lo que me pareció un gran ejemplo.

He encontrado las cifras más convenientes que pude poner en mis manos proceden de la Oficina Australiana de Estadística ( en particular, utilicé esta hoja de Excel ), ya que sus franjas de edad llegaban hasta los 100 años y el El hombre australiano de mayor edad tenía 111 años Así que me sentí cómodo cortando el cubo final a los 110 años. Otros organismos estadísticos nacionales parecían detenerse a menudo en los 95 años, lo que hacía que la horquilla final fuera incómodamente amplia. El histograma resultante muestra un sesgo negativo muy claro, así como algunas otras características interesantes, como un pequeño pico en la tasa de mortalidad entre los niños pequeños, que sería muy adecuado para la discusión e interpretación en clase.

Age at death of Australian males in 2012

A continuación, el código R con los datos en bruto, el HistogramTools paquete ha resultado ser muy útil para trazar gráficos basados en datos agregados. Gracias a esta pregunta de StackOverflow por señalarlo.

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

13voto

Silverfish Puntos 6909

Aquí están los resultados de los cuarenta atletas que completaron con éxito un salto legal en la ronda de clasificación del salto de longitud masculino de los Juegos Olímpicos de 2012, presentados en un gráfico de densidad del núcleo con un gráfico de alfombra debajo.

London 2012 Olympic Long Jump men's qualifying round results

Parece que es mucho más fácil estar un metro por detrás del grupo principal de competidores que estar un metro por delante, lo que explicaría la asimetría negativa.

Sospecho que una parte del amontonamiento en el extremo superior se debe a que los atletas tenían como objetivo la clasificación (que requería estar entre los doce primeros o lograr un resultado de 8,10 metros o superior) en lugar de lograr la mayor distancia posible. El hecho de que los dos primeros resultados fueran de 8,11 metros, justo por encima de la marca de clasificación automática, es muy sugerente, al igual que la forma en que los saltos ganadores de medallas en la final fueron más largos y más repartidos, con 8,31, 8,16 y 8,12 metros. Los resultados de la final tuvieron un ligero sesgo negativo no significativo.

Para comparar, los resultados del heptatlón olímpico de Seúl 1988 están disponibles en el heptathlon conjunto de datos en el paquete R HSAUR . En esa competición no hubo ronda de clasificación, pero cada prueba aportó puntos para la clasificación final; las competidoras mostraron una pronunciada asimetría negativa en los resultados del salto de altura y una asimetría algo negativa en el salto de longitud. Curiosamente, esto no se repitió en las pruebas de lanzamiento (tiro y jabalina), a pesar de que también son pruebas en las que un número más alto corresponde a un mejor resultado. Las puntuaciones finales también estaban algo sesgadas negativamente.

Datos y código

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))

# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

11voto

AdamSane Puntos 1825

Las puntuaciones en los exámenes fáciles o, alternativamente, las puntuaciones en los exámenes para los que los alumnos están especialmente motivados, tienden a estar sesgadas hacia la izquierda.

Como resultado, las puntuaciones SAT/ACT de los estudiantes que ingresan en las universidades más codiciadas (y aún más, sus GPA) tienden a estar sesgadas hacia la izquierda. Hay muchos ejemplos en collegeapps.about.com Por ejemplo, un gráfico de la Universidad de Chicago SAT/ACT y GPA está aquí .

Del mismo modo, los promedios de los graduados a menudo se inclinan hacia la izquierda; por ejemplo, los histogramas siguientes de los promedios de los graduados blancos y negros en una universidad con fines de lucro, tomados de la figura 5 de Gramling, Tim. " Cómo cinco características de los estudiantes predicen con precisión las probabilidades de graduación de las universidades con fines de lucro ." SAGE Open 3.3 (2013): 2158244013497026.

Histogram of GPA showing negative skew

(No es difícil encontrar otros ejemplos similares).

9voto

Jeff Bauer Puntos 236

En el Análisis de Fronteras Estocásticas, y concretamente en su enfoque históricamente inicial, la producción, la función de producción de una empresa/unidad de producción en general, se especifica estocásticamente como

$$q = f(\mathbf x) + u-w$$

donde $q$ es la producción real de la empresa, y $f(\mathbf x)$ es su función de producción (que se entiende más como una relación de entrada-salida que como una expresión matemática que refleja relaciones de "ingeniería") con $\mathbf x$ siendo un vector de insumos de producción (capital, trabajo, energía, materiales, etc.). La función de producción en Teoría Económica representa máximo producción, dada la tecnología y los insumos, es decir, encarna plena eficiencia . Entonces $u$ es una perturbación normal de media cero en el proceso de producción, y $w$ es una variable aleatoria no negativa que representa desviación de la eficiencia total debido a razones que el econometrista puede desconocer, pero que puede medir a través de este montaje. Se suele suponer que esta variable aleatoria sigue una distribución seminormal o exponencial. Asumiendo la media normal (por una razón), tenemos

$$u \sim N(0, \sigma_u^2),\;\; w\sim HN\left(\sqrt {\frac 2{\pi}}\sigma_2, \left(1- \frac 2{\pi}\right)\sigma_2^2\right)$$

donde $\sigma_2$ es la desviación estándar de la variable aleatoria normal "subyacente" cuyo valor absoluto es la media normal.

El término de error compuesto $\varepsilon = u-w$ se caracteriza por la siguiente densidad

$$f_{\varepsilon}(\varepsilon) = \frac 2{s_2}\phi\left(\varepsilon/s_2\right)\Phi\left((-\frac {\sigma_2}{\sigma_u})\cdot(\varepsilon/s_2)\right),\;\; s_2^2 = \sigma^2_u + \sigma^2_2$$

Se trata de una densidad sesgada-normal, con el parámetro de localización $0$ parámetro de escala $s_2$ y el parámetro de inclinación $(-\frac {\sigma_2}{\sigma_u})$ , donde $\phi$ y $\Phi$ son la pdf normal y la cdf respectivamente. Para $\sigma_u =1, \;\; \sigma_2 = 3$ la densidad se ve así: enter image description here

Así que la asimetría negativa es, diría yo, el modelado más natural de los esfuerzos de la propia raza humana: siempre desviándose de su ideal imaginado -en la mayoría de los casos quedándose atrás (la parte negativa de la densidad), mientras que en relativamente menos casos, trascendiendo sus límites percibidos (la parte positiva de la densidad) . Los propios estudiantes puede modelarse como una función de producción de este tipo. Es sencillo trasladar la perturbación simétrica y el error unilateral a aspectos de la vida real. No puedo imaginar que se pueda ser más intuitivo al respecto.

6voto

Runcible Puntos 539

Las variaciones de los precios de los activos (rendimientos) suelen tener un sesgo negativo: muchas pequeñas subidas de precios con algunas grandes caídas. Este sesgo parece ser válido para casi todos los tipos de activos: precios de las acciones, de las materias primas, etc. El sesgo negativo puede observarse en los cambios de precios mensuales, pero es mucho más evidente cuando se empiezan a observar los cambios de precios diarios o por hora. Creo que este sería un buen ejemplo porque se pueden mostrar los efectos de la frecuencia en el sesgo.

Más detalles: http://www.fusioninvesting.com/2010/09/what-is-skew-and-why-is-it-important/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X