27 votos

"El área total bajo una función de densidad de probabilidad es 1" - ¿respecto a qué?

Conceptualmente entiendo el significado de la frase "el área total bajo una PDF es 1". Debería significar que la probabilidad de que el resultado esté en el intervalo total de posibilidades es del 100%.

Pero no puedo entenderlo realmente desde un punto de vista "geométrico". Si, por ejemplo, en un PDF el eje x representa la longitud, ¿no sería mayor el área total bajo la curva si x se midiera en mm en lugar de en km?

Siempre intento imaginarme cómo sería el área bajo la curva si la función se aplanara hasta convertirse en una línea recta. ¿La altura (posición en el eje y) de esa línea sería la misma para cualquier PDF, o tendría un valor que dependería del intervalo en el eje x para el que se define la función?

0 votos

Se puede cambiar la escala de $x$ eje de km a mm, pero ¿a qué equivaldría? Seguiría teniendo exactamente la misma imagen y seis ceros más para las unidades en el $x$ eje. Puedes acercar o alejar el zoom si lo deseas, pero eso no cambiaría la imagen. Mientras tanto, si la curva del pdf es una línea recta horizontal (lo que implica una distribución uniforme), su posición en el $y$ no depende de las unidades del $x$ pero sólo en la longitud del intervalo en el $x$ eje. No estoy seguro de que sea útil para ti, pero para mí la idea de acercar y alejar la imagen hace que sea más fácil de entender.

0 votos

Para entenderlo mejor, aprende más sobre el cálculo y la toma de integrales, por ejemplo, Khan Academy ofrece conferencias de introducción bastante agradables a estos temas: khanacademy.org/math/integral-calculus/

0 votos

@richard hardy ok, entonces si mi longitud de intervalo es 1 la altura de un PDF uniforme sería 1. Pero si quiero convertir la escala de, por ejemplo, m a mm, la longitud de mi intervalo se convertiría en 1000 y tendría que volver a trazar la línea a 0,001? Entonces, ¿prácticamente podría cambiar la relación de aspecto de una función sólo cambiando la unidad de medida?

53voto

Silverfish Puntos 6909

Puede que le ayude a darse cuenta de que el eje vertical se mide como densidad de probabilidad . Así, si el eje horizontal se mide en km, el eje vertical se mide como densidad de probabilidad "por km". Supongamos que dibujamos un elemento rectangular en una cuadrícula de este tipo, que tiene 5 "km" de ancho y 0,1 "por km" de alto (que tal vez prefieras escribir como "km $^{-1}$ "). El área de este rectángulo es de 5 km x 0,1 km $^{-1}$ = 0.5. Las unidades se anulan y sólo nos queda una probabilidad de la mitad.

Si cambias las unidades horizontales a "metros", tendrías que cambiar las unidades verticales a "por metro". El rectángulo tendría ahora 5000 metros de ancho, y tendría una densidad (altura) de 0,0001 por metro. Todavía te queda una probabilidad de la mitad. Puede que te moleste lo extrañas que se verán estas dos gráficas en la página comparadas entre sí (¿no tiene que ser una mucho más ancha y corta que la otra?), pero cuando estés dibujando físicamente los gráficos puedes usar la escala que quieras. Mira abajo para ver lo poco raro que tiene que ser.

Puede que le resulte útil considerar histogramas antes de pasar a las curvas de densidad de probabilidad. En muchos aspectos son análogas. El eje vertical de un histograma es densidad de frecuencia [por $x$ unidad] y las áreas representan frecuencias, de nuevo porque las unidades horizontales y verticales se cancelan al multiplicarlas. La curva PDF es una especie de versión continua de un histograma, con una frecuencia total igual a uno.

Una analogía aún más cercana es una histograma de frecuencias relativas - decimos que dicho histograma ha sido "normalizado", de modo que los elementos del área representan ahora proporciones de su conjunto de datos original en lugar de frecuencias brutas, y el área total de todas las barras es una. Las alturas son ahora densidades de frecuencia relativas [por $x$ unidad] . Si un histograma de frecuencia relativa tiene una barra que recorre $x$ de 20 km a 25 km (por lo que la anchura de la barra es de 5 km) y tiene una densidad de frecuencia relativa de 0,1 por km, entonces esa barra contiene una proporción de 0,5 de los datos. Esto se corresponde exactamente con la idea de que un elemento elegido al azar del conjunto de datos tiene una probabilidad del 50% de encontrarse en esa barra. El argumento anterior sobre el efecto de los cambios en las unidades sigue siendo válido: compara las proporciones de datos que se encuentran en la barra de 20 km a 25 km con las de la barra de 20.000 metros a 25.000 metros para estos dos gráficos. También puedes confirmar aritméticamente que las áreas de todas las barras suman uno en ambos casos.

Relative frequency histograms with different units

¿Qué he querido decir con mi afirmación de que la PDF es una "especie de versión continua de un histograma"? Tomemos una pequeña franja bajo una curva de densidad de probabilidad, a lo largo de $x$ valores en el intervalo $[x, x + \delta x]$ , por lo que la franja es $\delta x$ de ancho, y la altura de la curva es una constante aproximada $f(x)$ . Podemos dibujar una barra de esa altura, cuya área $f(x) \, \delta x$ representa la probabilidad aproximada de estar en esa franja.

¿Cómo podemos encontrar el área bajo la curva entre $x=a$ y $x=b$ ? Podríamos subdividir ese intervalo en pequeñas franjas y tomar la suma de las áreas de las barras, $\sum f(x) \, \delta x$ que correspondería a la probabilidad aproximada de estar en el intervalo $[a,b]$ . Vemos que la curva y las barras no se alinean con precisión, por lo que hay un error en nuestra aproximación. Al hacer $\delta x$ cada vez más pequeño para cada barra, llenamos el intervalo con más barras y más estrechas, cuyo $\sum f(x) \, \delta x$ proporciona una mejor estimación del área.

Para calcular el área con precisión, en lugar de suponer $f(x)$ era constante en cada franja, evaluamos la integral $\int_a^b f(x) dx$ y esto corresponde a la verdadera probabilidad de estar en el intervalo $[a,b]$ . La integración sobre toda la curva da un área total (es decir, la probabilidad total) de uno, por la misma razón que la suma de las áreas de todas las barras de un histograma de frecuencias relativas da un área total (es decir, la proporción total) de uno. La integración es en sí misma una especie de versión continua de tomar una suma.

enter image description here

Código R para los gráficos

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)

0 votos

Lo has clavado con las dos primeras líneas, pero el resto es igual de bueno.

5 votos

@PatrickT Gracias - la experiencia docente sugiere que a veces hay que probar un par de cosas antes de que se entienda, porque los diferentes alumnos (o lectores) llegan con diferentes niveles de conocimiento. Las dos primeras líneas deberían convencer a cualquier lector que conozca el análisis dimensional (por ejemplo, si ha estudiado ciencias físicas o ingeniería), pero espero que los gráficos resuelvan el resto. En mi experiencia, el enfoque de los histogramas funciona bien para los estudiantes que ya los han visto antes; la brecha entre la "densidad de frecuencia relativa" y la "densidad de probabilidad" es más fácil de salvar que $f(x)=F'(x)$ .

1 votos

@Silverfish: ¡Es la primera vez que veo a alguien utilizar el término "penny drops" en inglés!

16voto

Aksakal Puntos 11351

La función de densidad de probabilidad se mide en porcentajes por unidad de medida de su eje x. Digamos que en un punto determinado $x_0$ su PDF es igual a 1000. Esto significa que la probabilidad de $x_0<x<x_0+dx$ es $1000\,dx$ donde $dx$ está en metros. Si se cambian las unidades a centímetros, la probabilidad no debería cambiar para el mismo intervalo, pero el mismo intervalo tiene 100 centímetros más que metros, por lo que $1000\,dx=PDF'(x_0')\cdot100\,dx'$ y resolviendo obtenemos $PDF'(x_0')=\frac{PDF(x_0)}{100}$ . Hay 100 veces menos unidades de probabilidad (porcentajes) por centímetro que por metro.

8voto

Dipstick Puntos 4869

Ya tienes dos respuestas, con una excelente de Silverfish Sin embargo, creo que una ilustración podría ser útil aquí, ya que usted preguntó sobre la geometría y "imaginar" a sí mismo esas funciones.

Empecemos con un simple ejemplo de Distribución Bernoulli :

$$ f(x) = \begin{cases} p & \text{if }x=1, \\[6pt] 1-p & \text {if }x=0.\end{cases} $$

enter image description here

Como los valores son discretos no hay "curva" sino sólo dos puntos, sin embargo la idea es similar: si se quiere saber total probabilidad (área bajo la curva) hay que sumar las probabilidades de los dos resultados posibles:

$$p + (1 - p) = 1$$

Sólo hay $p$ y $1-p$ en esta ecuación ya que sólo tenemos dos posibles resultados puntuales con unas probabilidades dadas.

Lo mismo ocurriría con Distribución de Poisson que también es una distribución de probabilidad discreta. Hay más de dos valores, por lo que se puede imagina que existe una línea que une los puntos, sin embargo para calcular la probabilidad total habría que sumar todas las probabilidades de $x$ 's. La distribución de Poisson se utiliza a menudo para describir datos de recuento, por lo que se puede pensar en ella como cada $x$ es un número de determinados eventos y $f(x)$ es una probabilidad de este resultado. Podrías imaginar que cada punto del gráfico de abajo es en realidad la altura de una pila formada por algunos resultados: $x_1$ es una pila de todos los " $x_1$ " resultados que ha observado, etc. El "área bajo la curva" total sería aquí todas las pilas sumadas (o un meta -de todos los resultados) pero como no sumamos números de ocurrencias sino probabilidades, suman $1$ . Así que deberías no piensa en ello como una suma de cuentas $\sum \#\{x_i\}=N$ sino como suma de probabilidades: $\sum \#\{x_i\}/N=1$ donde $N$ es el número total de todos los resultados posibles.

enter image description here

Ahora consideremos un distribución normal que en realidad es una distribución continua - por lo que no tenemos "puntos" ya que los valores de $x$ están en escala continua, es decir, hay infinitos valores de $x$ . Así que si hubiera puntos no podrías verlos por mucho que hicieras "zoom", ya que siempre podría haber algún número infinito de puntos más pequeños entre cualquier punto dado. Por eso, aquí tenemos una curva - puedes imaginar que está hecha de infinitos "puntos". Podrías preguntarte: ¿cómo calcular una suma de un número infinito de probabilidades ? En el gráfico de abajo, la curva roja es una PDF normal y los cuadros negros son el histograma de algunos valores extraídos de la distribución. Así que el gráfico del histograma ha simplificado nuestra distribución al número finito de "cajas" con un cierto anchura y si se suman las alturas de las cajas multiplicadas por su anchura se obtendría un área bajo la curva, o área de todas las cajas. Aquí utilizamos áreas en lugar de puntos, ya que cada caja es un resumen de un número infinito de "puntos" que se han empaquetado en la caja.

enter image description here

Así que para obtener el área total tomamos las alturas (es decir $f(x)$ ) y los anchos (por ejemplo, la primera caja tiene un ancho $-2.5 - -3 = 0.5$ , al igual que el resto de las cajas). En la figura real trazada las alturas de las cajas son:

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

si los sumas multiplicando cada uno por $0.5$ (anchura), sumarán $1$ . Aquí se no puede contar nada ya que hay infinitos puntos posibles que forman la curva. Por otro lado, como estamos hablando de probabilidades, la probabilidad de todos los resultados posibles tiene que ser $1$ .

En este caso utilizamos la "probabilidad por unidad" y la unidad puede tener cualquier anchura de su elección. Considere "todos los resultados posibles" en la escala continua como una línea que podría dividirse en las partes, y cada parte podría dividirse en algunas partes más pequeñas hasta infinitamente pequeñas. La probabilidad total de esta línea es $1$ . Si fuera plana, se podría imaginar que su longitud total es $1$ y al dividirlo se obtienen las probabilidades de las partes. Si la línea no es plana, la probabilidad por parte se describe mediante la función $f(x)$ . Así que las unidades realmente no importan ya que hay un número infinito de posibles "puntos" es la probabilidad por unidad, donde unidad es siempre la misma: una fracción de la longitud "total" .

Este enfoque ilustra de forma simplificada una cuestión un poco más complicada: tomar integrales . En el caso continuo se utilizan integrales para calcular el área bajo la curva. Integral del área de la curva entre puntos $a$ y $b$ ( $-3$ y $3$ en nuestra parcela) es:

$$\int_a^b \! f(x)\,dx$$

donde $f(x)$ es la altura y $dx$ es la anchura y se puede pensar en $\int$ como $\sum$ para variables continuas. Para aprender más sobre las integrales y el cálculo puedes consultar el Conferencias de Khan Academy .

También ha preguntado por el distribución "plana" (uniforme) :

enter image description here

En primer lugar, observe que no se trata de una distribución uniforme válida, ya que debería tener parámetros tales que $-\infty < a < b < \infty$ para integrar a $1$ . Si lo piensas, es continuo y como es plano, es una especie de caja con un ancho de $-\infty$ a $\infty$ . Si se quisiera calcular el área de dicha caja, se multiplicaría la altura por la anchura. Desgraciadamente, aunque la anchura es infinita, para que se integre a $1$ la altura tendría que ser alguna $\varepsilon$ es decir enormemente pequeño... Por lo tanto, este es un caso complicado y se puede imaginar más bien en términos abstractos. Observe que, como Ilmari Karonen que se ha advertido en el comentario, se trata más bien de una idea abstracta que no es realmente posible en la práctica (véase el comentario más abajo). Si se utiliza dicha distribución como previa, sería un previa indebida .

Tenga en cuenta que en el caso continuo la función de densidad de probabilidad le da estimaciones de densidad en lugar de probabilidades, por lo que las alturas (o su suma) podrían superar $1$ (ver aquí para más información).

1 votos

Para el plano (es decir uniforme ) sobre una línea infinita, "complicado" significa realmente "imposible": una distribución uniforme sobre un conjunto de medida infinita no es una distribución de probabilidad válida, precisamente porque no se puede escalar para integrar a $1$ . Es a veces útil pretender que lo sea, pero llevar esto demasiado lejos conduce rápidamente a las paradojas. (Por ejemplo, dejemos que $X$ y $Y$ sean independientes y se distribuyan uniformemente en $(-\infty,\infty)$ ; ¿cuál es la probabilidad de que $|X|<|Y|$ ?)

0 votos

Tienes razón, "complicado" es demasiado informal. Haré correcciones más adelante.

0voto

auxsvr Puntos 1262

La siguiente idea clave fue mencionada en un comentario, pero no en una respuesta existente...

Una forma de intuir las propiedades de un PDF es considerar que el PDF y el CDF están relacionados por integración (cálculo) -- y que la FCD tiene una salida monótona que representa un valor de probabilidad entre 0 y 1.

El sin unidades El área total integrada bajo la curva PDF no se ve afectada por las unidades del eje X.

En pocas palabras...

Area = Width x Height

Si el eje X se hace más grande, numéricamente, debido a un cambio en las unidades, entonces el eje Y debe hacerse más pequeño en una cantidad correspondiente lineal factor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X