7 votos

Explicar el comportamiento de probabilidad log

(Esta pregunta está relacionada con la anterior que hice, aquí)

Tengo un conjunto de 2D observaciones (datos medidos) del tamaño de la muestra $N$:

$$O = \{(x_1, y_1), (x_2, y_2), ..., (x_N, y_N)\}$$

También tengo un modelo de $S(v_1, v_2, ..., v_p)$, que depende de la $p$ parámetros, y los intentos de reproducir los datos observados mediante la generación artificial "observado" de datos.

El número de elementos y la distribución espacial de los datos artificiales generados con el modelo, dependen de los valores dados a las $p$ parámetros cada vez que se utiliza el modelo.

Por ejemplo, aquí es algunas observado/medido de datos (a la izquierda) del tamaño de la muestra $N=1000$, y algunos datos artificiales (derecha) del tamaño de la muestra $M=350$, obtenido por la fijación de la $p$ parámetros en $S$ a que algunos de los valores:

enter image description here

Mediante la variación de los parámetros del modelo de $S$, generar $k$ conjuntos de datos artificiales (cada uno de forma única descrito por los valores asignados a las $p$ parámetros) que me llame a $A_1, A_2, ..., A_k$, donde:

$$A_r = \{(x_1, y_1), (x_2, y_2), ..., (x_{M_r}, y_{M_r})\}$$

(donde los conjuntos de $A_1, A_2, ..., A_k$ tienen tamaños de muestra $M_1, M_2, ..., M_k$)

Tengo que seleccionar de $A_1, A_2, ..., A_k$ el conjunto que presenta el mejor ajuste con mis datos observados $O$.

Para ello, aplico la log-verosimilitud de la prueba para cada uno artificial conjunto de datos:

$$L_r = -\sum_{i=1}^N \log ( \frac{1}{M_r} \sum_{j=1}^{M_r} e^{-\frac{(x_i - x_j)^2}{2}} e^{-\frac{(y_i - y_j)^2}{2}} )\;;\; r=1,..,k$$

donde $(x_i, y_i)$ $(x_j, y_j)$ representan observado y artificial de datos respectivamente.

Como yo lo entiendo, necesito encontrar el artificial conjunto que minimiza la log-verosimilitud, y este será el que muestra el mejor ajuste.

Algo inusual (para mí) que sucede con la probabilidad de valores como el tamaño de la prótesis de conjuntos de aumento:

enter image description here

donde cada punto azul representa el logaritmo de la probabilidad valor $L_r$ (eje y) obtenido de un artificial set $A_r$ con un tamaño de muestra $M_r$ (eje x). La línea roja es el tamaño de la muestra para los datos observados ($N=1000$).

¿Por qué es la log-verosimilitud pequeña artificial conjuntos con pocos elementos, se sube a un máximo y luego empieza a descender como el tamaño de la muestra de la artificial conjuntos de aumento?

Yo habría esperado el exacto opuesto de comportamiento, dado que soy después de que el mínimo de la log-verosimilitud valor.

(El código de python he utilizado para generar estas pruebas se puede descargar desde aquí)

1voto

MattSayar Puntos 723

Hay varias cosas que podría estar equivocado; sólo puedo sugerir algunas cosas para mirar.

¿Cuál es el más pequeño de $N$ a de depuración con — 5, 10 ? Parcela de que la con $N_r = N/2, N, 2N$ . Siga los pasos, con alfombra de parcelas o cuantiles de $|p_i - q_j|, exp_{ij}$, fila sumas.
(No me queda claro si $1 / M_r$ escala es correcta, tal vez la fila sumas 1 en el $N \times N_r$ matriz de $exp_{ij}$ ?)

$exp^{ - |p - q|^2 / r }$ es muy sensible a la radio de $r$. Y no escala: como $N_r \to \infty$, $exp$ s de la multitud cerca de 1 (creo). Hay un montón de otras métricas entre 2d punto de conjuntos; promedio de vecino más cercano con nnear decir 10 es fácil y rápido con scipy.espacial.cKDTree .

Los datos verse como un continuo de terreno, 1 en los puntos de datos, cayendo de a 0 en entre ? Si es así, el error promedio de la $N_r$ puntos interpolados en el $N$ sonidos como una medida razonable; ver (ejem) distancia inversa ponderada-idw-interpolación-con-python. Y los terrenos son agradables a la parcela.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X