2 votos

¿Cómo averiguar qué variable aleatoria se ha elegido?

Esta pregunta está relacionada con mi otra pregunta ( Necesito ayuda con un modelo, análisis de datos de Whatsapp ). Supongamos que tenemos variables aleatorias $X_1,\cdots,X_m$ bernoulli distribuido con probabilidad $p$ , $D_1,\cdots,D_m \sim Exp(\lambda_d)$ , $P_1,\cdots,P_m \sim Exp(\lambda_P)$ y que $d_i := X_i D_i + (1-X_i)P_i$ para $i=1,\cdots,m$ . Supongamos además que $\lambda_d >> \lambda_P$ . Entonces, ¿cómo podemos averiguar observando sólo $d_i$ para lo cual $X_i = 1$ ? En mi otra pregunta se sugirió tomar la media $\widehat{d}$ de $d_i$ y si $d_i > \widehat{d}$ entonces para deducir que $X_i = 0$ . Pero este procedimiento es más una heurística que un argumento real. ¿Alguien tiene una idea de cómo convertir esto en un argumento?

Conozco el método de Otsu en visión por ordenador para agrupar una imagen en blanco y negro. ( https://en.wikipedia.org/wiki/Otsu%27s_method ) ¿Cree que este método podría aplicarse en esta situación?

Editar: Por sugerencia de Anthony Quas, ordenaré el $d_i$ y luego busca un hueco grande. La brecha se encuentra maximizando la intersuma de cuadrados como en el método de Otsu. Aquí está el código R para encontrar el índice $I$ en el que se produce el corte:

S <- 0
I <- -1
st <- sort(di)
for(i in seq(2,m-2)){
    A <- st[1:i]
    B <- st[(i+1):m]
    mA <- mean(A)
    mB <- mean(B)
    ssInter <- length(A)*(mA-mean(di))^2+length(B)*(mB-mean(di))^2
   if( ssInter > S){ S <- ssInter; I <- i}
}

1voto

Vahn Puntos 66

Este primer párrafo ha sido corregido Así que asumiendo que todo es conocido, y que $\lambda_d\gg\lambda_P$ el umbral en el que se debe cortar entre asumir $X=1$ y $X=0$ viene dada aproximadamente por la solución de $pe^{-\lambda_d T}=(1-p)\lambda_P T$ . El lado izquierdo es la probabilidad de que un $d_i$ que es un $D$ está por encima del umbral; y el lado derecho es la probabilidad de que un $d_i$ que es un $P$ se encuentra por debajo del umbral. Cuando calculé el umbral para los valores de tus parámetros, obtuve un umbral de 33.

Asumiré que $mp$ y $m(1-p)$ son grandes. Dada la gran proporción entre $\lambda_P$ y $\lambda_d$ es bastante inútil utilizar la media como punto de corte (da demasiados falsos $X=1$ 's cuando el $P_i$ resultan ser algo pequeñas en relación con $1/\lambda_P$ ).

Probablemente una forma bastante buena de localizar el punto de corte en la práctica es ordenar el $d_i$ 's en orden y mira los huecos. En el $\lambda_D$ parte de la distribución, estos deben ser algo así como $1/(mp\lambda_d)$ mientras que en el $\lambda_P$ parte de la distribución, deben ser mucho más grande, alrededor de $1/(m(1-p)\lambda_P)$ . Yo trataría de encontrar una forma de adivinar dónde cambian los huecos; y entonces tal vez duplicar el umbral para estar seguro (se obtienen muy pocos falsos $D$ de esta manera y duplicar el número de falsos $P$ '), pero este número es algo así como el 0,1% para su rango de parámetros.

1voto

Yo lo haría así: la log-verosimilitud con respecto a la medida en la que están todos $\lambda_p$ es $ \sum X_i (log(\frac {\lambda_q}{\lambda_p}) - ({\lambda_p} - {\lambda_q})(Z_i)) + log( {N \choose j} p^j (1-p) ^ {n-j})$ , donde $Z_i$ es tu observación y mis X_i son 0 o 1, sin embargo, al haber elegido j estoy seguro de que maximizas la expresión eligiendo la j mayor o la j menor $Z_i$ y entonces es muy probable que la estimación $\lambda$ s debe ser la media de los más grandes resp los más pequeños. Mi afirmación es que este procedimiento es razonable porque se basa en la maximización de la probabilidad. Me sorprendería que no se haya considerado exactamente este problema, y buscaría en los "datos que faltan" (las X_i) . Cambié su notación a ps y qs para poder advertirle de que tenga cuidado con mis p's y q's, los signos pueden ser erróneos por la idea debe ser correcta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X