4 votos

¿Cómo lidiar con los ratios cuando el denominador varía mucho?

Tengo un conjunto de datos con el número de empresas, por ejemplo, las panaderías o médicos, en algunos pueblos y ciudades.

Quiero calcular la distribución relativa de ciertas profesiones, pero a medida que el tamaño de la población varía mucho entre ciudades, el resultado puede llegar a ser bastante volátil.

Por ejemplo, si tengo por casualidad un abogado inscrito en un pueblo de 20 personas, el resultado abogado de densidad " de 5% por mucho supera a los resultados de todas las otras ciudades (especialmente las más grandes, donde el valor es más estable).

Cómo mejor tratar correctamente con este efecto? He calculado el Clopper-Pearson intervalos, pero los resultados sólo son capaces de remediar mi problema hasta cierto punto.

2voto

que que Puntos 1435

La idea inicial de

Cómo sobre: modelo, el número de abogados en cada ciudad, como la predicción de un modelo Bayesiano? El número real de los abogados se utiliza como entrada.

Usted puede dibujar estocástico del modelo resultante, lo que significa que algunos de los municipios que no los abogados de vez en cuando se dibuja con un abogado, y algunos con tres abogados de vez en cuando se dibuja con ningún abogado.

Alternativamente, se podría trabajar con la salida resultante como una estimación de la cantidad de abogados. Para un pueblo que no abogados pueden mostrar con una estimación de 0.2 abogados, y en una ciudad con un abogado podría mostrar con una estimación de que tal vez 0.22 abogados.

Real utilizable algoritmo

En la práctica, porque tienes muchas ciudades, lo que puedes hacer es un pequeño matiz en esto: crear un único modelo global, por profesión, que prevé una distribución de probabilidad sobre el número de abogados en una ciudad, teniendo en cuenta el número de personas en la ciudad, y un conjunto de parámetros:

$$ p(N_{\text{abogado}} \mid N_{\text{ciudad}}, \theta) = f(\theta, N_{\text{ciudad}}) $$

El uso de este, y teniendo en cuenta los datos de $\mathcal{D} = \{ \mathcal{D}_1, \mathcal{D}_2, \dots, \mathcal{D}_n \}$, podemos obtener la probabilidad de los datos de los parámetros:

$$ p(\mathcal{D} \mid \theta) = \prod_{i=1}^n p(\mathcal{D}_i \mid \theta) $$

A continuación, el uso de la inferencia Bayesiana en esto para encontrar la posterior distribución en $\theta$:

$$ p(\theta \mid \mathcal{D}) = \frac{p(\mathcal{D} \mid \theta)\,p(\theta)} {\int_{-\infty}^\infty p(\mathcal{D}, \theta)\, d\theta} $$

... que puede ser estimado utilizando, por ejemplo VAE, https://arxiv.org/abs/1312.6114

o usted puede utilizar un MAPA de estimación, lo que evita la manipulación de la intratable marginación para las pruebas:

$$ \theta^* = \text{argmax}_{\theta} p(\mathcal{D} \mid \theta)\,p(\theta) $$

Una vez que usted tiene cualquiera de las $\theta$ o de una distribución de probabilidad sobre $\theta$ bien $\theta$ es bastante, la solución a su problema directamente, ya que es de los parámetros de una distribución de probabilidad que muestra cómo el número de personas que tienen una determinada profesión varía con el tamaño de la ciudad. Pero a continuación, puede hacer cosas como:

  • encontrar el número total de abogados, mediante la integración de más de todas las ciudades (por ejemplo, numéricamente); o
  • estimar el número de abogados, manteniendo el tamaño de la ciudad fijos

-1voto

Zizzencs Puntos 1358

Si tiene estos datos en muchas ciudades pequeñas y en algunas grandes, entonces una solución sería unir las ciudades pequeñas dentro de una región específica (por ejemplo, el estado en los EE. UU.) Para que tenga algo como:

Ciudad de Nueva York, Albany, Buffalo, Rochester, Yonkers, Syracuse, pequeña ciudad NY

para el estado de nueva york.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X