5 votos

¿Probabilidad de que una observación provenga de la población A o B?

Soy un desarrollador web que está investigando algunas estadísticas básicas Perdóneme si estoy usando la jerga equivocada. :)

Teniendo en cuenta que:

  • Tengo 2 poblaciones (A y B; cada una tiene unas 10.000 observaciones)
  • Para cada población conozco el tamaño, la media y la desviación estándar
  • Tengo una observación "perdida"
  • Sé con certeza que esta observación pertenece a la población A o a la población B. No puede coexistir en ambas poblaciones.

¿Es posible determinar las probabilidades de que la observación pertenezca a la población A o a la población B? Luego compararía cada probabilidad para determinar qué caso es más probable.

Preferiría no hacer una suposición sobre la distribución de cada población. Sin embargo, si es necesario, sería justo suponer que las poblaciones se distribuyen normalmente.

Por si sirve de ayuda, tengo algunos datos de muestra disponibles:

  • observación x de interés: 0.85
  • media de la población A: 0.49832024649637213001 , n: 10061 desviación estándar: 0.26712151244680104078
  • media de la población B: 0.49646091156051916692 , n: 9939 desviación estándar: 0.26807810534781098689

¿Cuál es la probabilidad de que la observación x esté en la población A? ¿Cuál es la probabilidad de que la observación x esté en la población B?

Ten en cuenta que me doy cuenta de que las medias y las desviaciones típicas de ambas poblaciones son muy similares. No me importa que las probabilidades sean también muy similares. Esto es sólo una observación de ejemplo.

3voto

Bauna Puntos 176

Dejemos que $X$ sea la variable aleatoria de su observación, y $x$ un valor determinado (digamos 0,413). Entonces podemos utilizar la regla de Bayes:

\begin{align} p(X \in A \mid X = x) &= \frac{p(X = x \mid X \in A) \, p(X \in A)}{p(X = x)} \\&= \frac{p(X = x \mid X \in A) \, p(X \in A)}{p(X = x \mid X \in A) \, p(X \in A) + p(X = x \mid X \in B) p(X \in B)} .\end{align}

Ahora la cuestión es cómo estimar cada uno de estos términos.

Una cosa razonable para $p(X \in A) = 1 - p(X \in B)$ puede ser $\frac{n_A}{n_A + n_B}$ pero va a depender de tus suposiciones.

Si estás dispuesto a asumir $A$ y $B$ son normales, entonces podrías tener $p(X = x \mid X \in A)$ y $p(X = x \mid X \in B)$ por la densidad de una distribución normal con la media y la varianza dadas. Esto va a dar casi $0.5$ probabilidad para cualquier posible $x$ Creo que, aunque no he hecho los números. También sería muy cuidado incluso con confiar en que $A$ es más probable que $B$ si sale digamos $0.502$ ; recuerda que los parámetros que has dado son estimaciones, y que un poco de azar puede moverte hacia un lado u otro.

Si no quiere asumir que $A$ y $B$ son normales, podrías hacer algún tipo de estimación de la densidad , tal vez estimación de la densidad del núcleo para estimar las probabilidades. Si las poblaciones son tan parecidas como parece a partir de las medias y las varianzas -¡que sin duda hay que trazar! - entonces, de nuevo, ten mucho cuidado con la interpretación de esto.

Esto es esencialmente un clasificador ingenuo de Bayes Aunque aquí, debido a que sus datos son unidimensionales, la suposición "ingenua" es innecesaria.

1voto

chrism2671 Puntos 991

Lo que describes es una modelo de mezcla de los cuales el ejemplo más famoso es un Modelo de mezcla gaussiana .

Los modelos de mezcla tienen $k$ subpoblaciones, cada una con su propia distribución. Para muestrear una sola observación de la distribución de la mezcla, primero se tira un dado para determinar cuál de las $k$ subpoblaciones de las que se extraerá la observación, por ejemplo $i$ . A continuación, se buscan en una tabla los parámetros (como la media y la varianza) de $i$ -ésima subpoblación; finalmente se muestrea la observación final de la distribución para la $i$ -a la población, por ejemplo $\mathcal{N}(\mu_i, \sigma^2_i)$ . No es necesario utilizar una distribución normal; el punto clave es el proceso de dos pasos.

Dada una única observación extraída de un modelo de mezcla conocido, se puede determinar cuál de las $k$ subpoblaciones de las que probablemente se haya extraído utilizando el teorema de Bayes. Digamos que nuestra observación es $x$ y $\phi_i$ es la probabilidad de que la observación se extraiga del $i$ -a la subpoblación.

Tenemos

$$P(x<X<x+\epsilon|i) = \text{pdf}(x; \mu_i, \sigma_i^2)$$

et

$$P(i) = \phi_i$$

por lo tanto

$$P(x<X<x+\epsilon) = \phi_i \; \text{pdf}(x; \mu_i, \sigma_i^2)$$

nos da la probabilidad de que la observación $x$ se extrajo del $i$ -subpoblación; la mayor probabilidad sobre todas las $k$ subpoblaciones es de la que más probablemente procede.

1voto

jgradim Puntos 1143

¿Es posible determinar las probabilidades de que la observación pertenezca a la población A o a la población B? Luego compararía cada probabilidad para determinar qué caso es más probable.

La idea básica sería comparar cuántos miembros de la población A con valor 0,85 con los miembros de la población B con valor 0,85. Suponiendo que el proceso que generó el punto de datos perdido es el mismo que el que generó sus otros datos, puede mirar cuántas observaciones de la población A tienen valor 0,85, frente a la población B. Sin embargo, tendrá que decidir la amplitud de la ventana en torno a 0,85; probablemente no tendrá ningún punto de datos que sea exactamente 0,85000000. Una ventana estrecha tendrá un tamaño de muestra más pequeño, pero una ventana más grande se verá afectada por datos cada vez más alejados de .85. Este es el equilibrio entre varianza y sesgo.

En lugar de mirar cuántos puntos de datos hay realmente en 0,85, también puede mirar cuántos "debería" haber. Para ello, es necesario hacer una suposición sobre el tipo de distribución y estimar los parámetros. Por ejemplo, si supones que la distribución es normal, puedes utilizar la media y la desviación estándar para calcular la probabilidad de 0,85. Sin embargo, debes examinar tus datos y ver si la distribución es realmente normal.

Si se calcula cuántas observaciones "deberían" estar en 0,85 para A frente a B, esto dará un cálculo bayesiano de la probabilidad de que sea de A frente a B. Sin embargo, para ser realmente riguroso, hay que hacer un análisis meta-bayesiano que, dadas las creencias previas sobre las distribuciones, encuentre la distribución de probabilidad de los estadísticos muestrales observados de la media y la desviación estándar. Si la desviación estándar es de 0,268, entonces el valor p de dos colas para las medias de la muestra que difieren en 0,002 es de aproximadamente el 60%. Es decir, la probabilidad de ver una diferencia tan grande, o más grande, en las medias por pura casualidad es de aproximadamente el 60%. Por lo tanto, estos datos no ofrecen una base sólida para pensar que las verdaderas medias de A y B son realmente diferentes. Además, hay que tener en cuenta que las estadísticas de las muestras suelen tener aproximadamente la mitad de cifras significativas que el tamaño de la muestra; el tamaño de la muestra de 9939 tiene cuatro cifras significativas, por lo que las estadísticas sólo tienen dos. Veinte dígitos de precisión es definitivamente una exageración. El valor p de dos colas para obtener una media muestral de 0,49646, dada una media real de 0,5 y una std de 0,268, es de aproximadamente el 20%, lo que sigue estando lejos de ser estadísticamente significativo. Así que los datos son consistentes con que ambas medias sean realmente de 0,5.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X