Me encontré con la siguiente frase en un diario: "Para ver si una función de densidad de probabilidad se superpone"
¿Qué significa esta palabra en la literatura estadística, "solapamientos"?
Me encontré con la siguiente frase en un diario: "Para ver si una función de densidad de probabilidad se superpone"
¿Qué significa esta palabra en la literatura estadística, "solapamientos"?
Tal y como yo lo interpretaría, supongamos que tienes a pdfs, $f_X$ y $f_Y$ . El solapamiento sería el área compartida bajo la curva. Matemáticamente, se podría escribir esto como:
$\displaystyle \int_{-\infty}^{\infty} \min(f_X(t), f_Y(t)) dt$
Para ilustrar esto, considere el siguiente gráfico:
En esta imagen, tenemos dos pdf's, uno en azul y otro en rojo. El área sombreada en verde es el solapamiento entre ambos. Como puedes ver, hay una buena cantidad de solapamiento entre las dos distribuciones.
En cambio, consideremos este escenario en el que tenemos dos pdf's mucho más distintos:
Ahora hay muy pocas coincidencias. ¿Por qué te importa el solapamiento?
Depende de la situación, pero una razón común por la que el solapamiento es importante es que cuando dos distribuciones tienen muy poco solapamiento, observar el valor de una muestra aleatoria será muy informativo sobre la distribución de la que procede la muestra, mientras que si hay un gran solapamiento, suele ser bastante poco informativo. Consideremos el primer gráfico: supongamos que observamos $x = -0.5$ . En este caso, era más probable que procediera de la distribución azul (es decir, suponiendo que tuviera la misma probabilidad de proceder de cualquiera de las dos distribuciones), pero no sería un valor demasiado raro de la distribución roja. Así que no se puede estar tan seguro de que la muestra proceda de la distribución azul. Por otro lado, en la parcela dos, habría sido extremadamente inusual desde la distribución roja, por lo que se podría estar muy seguro de que procedía de la distribución azul.
Este concepto puede ser muy importante en problemas como la clasificación (si hay poco solapamiento entre las categorías, se puede tener una alta precisión de clasificación) o el algoritmo EM para modelos de mezcla (si hay mucho solapamiento, el algoritmo puede ser muy lento porque la probabilidad de que una observación provenga de una determinada fuente depende mucho de la probabilidad de esa fuente, más que del valor observado).
Creo que se refieren a que las variables aleatorias tienen un soporte común.
Por ejemplo, si X ~ Unif[0,2] e Y ~ Unif[1,3], sus respectivas PDF solapamiento en el intervalo [1,2], es decir, el único intervalo en el que ambos X e Y pueden tener valores comunes es [1,2].
Para ilustrar, a continuación se muestra una representación de los soportes de X e Y, debajo de la cual hay una representación de la "línea real".
X:------------
Y: -------------
0_____1_____2_____3
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.