1 votos

¿Qué medidas estadísticas se recomiendan para la mezcla de muestras de población?

Quiero saber qué estadísticas deberían utilizarse para medir la mezcla de lenguas en las ciudades de un país/estado. Tengo muestras de individuos y sé la lengua que hablan y la ciudad en la que viven. Las ciudades no son todas del mismo tamaño y hay 3 grupos lingüísticos diferentes.

Las muestras se toman uniformemente de la población total, de modo que las ciudades más grandes tienen un número proporcionalmente mayor de muestras en el conjunto de datos.

Quiero evitar enfoques ingenuos como; tomar el valor de A/B ya que 100/50 es lo mismo que 2/1 y tener contribuciones iguales.

3voto

Ted Puntos 854

Una humilde prueba de Chi cuadrado es probablemente todo lo que necesita para probar la hipótesis nula de que no hay relación entre la lengua materna y la ciudad, es decir, que la proporción de hablantes es la misma en cada ciudad (tenga en cuenta que esto no es lo mismo que todas las proporciones son un tercio).

Según mis comentarios, no estoy seguro de que sea una pregunta tan útil, dependiendo del contexto. Al fin y al cabo, es de esperar que las distintas ciudades tengan diferentes proporciones de lenguas, ¿no es así, por motivos históricos, geográficos y culturales? Así que es casi seguro que se rechazará la hipótesis nula de igualdad de proporciones.

Pero la prueba sería algo como lo siguiente. Los números de la tabla representan el número de una muestra que declara esa lengua como lengua materna (datos inventados).

> x <- data.frame(
+ row.names=c("London", "New York", "Hanover"),
+ english=c(100,100,10),
+ german=c(5,8,60),
+ french=c(7,4,12))
> x
         english german french
London       100      5      7
New York     100      8      4
Hanover       10     60     12
> 
> # inbuilt chi square test:
> chisq.test(x)

        Pearson's Chi-squared test

data:  x 
X-squared = 174.4, df = 4, p-value < 2.2e-16

> 
> # or, by hand:
> # First, what are the "expected" values if there 
> # is no relationship between city and language
> e <- apply(x,1,sum) %o% apply(x,2,sum)/sum(x)
> e
         english german french
London     76.86  26.72  8.418
New York   76.86  26.72  8.418
Hanover    56.27  19.56  6.163
> sum((x-e)^2/e)
[1] 174.4
>

2voto

JMW.APRN Puntos 21

Si sólo busca una puntuación, puede inspirarse en la pregunta ¿Cómo se mide la no uniformidad de una distribución? .

Si la mezcla es perfecta, la distribución de las lenguas debería ser uniforme en todas las ciudades ( es decir 1/3 de cada grupo lingüístico). Si la mezcla es imperfecta, no será uniforme.

La respuesta a este post sugiere utilizar el $\chi^2$ métrica, la entropía o la divergencia de Kullback-Leibler. En realidad, yo utilizaría la última, que permite normalizar fácilmente la distribución lingüística desigual en toda la población.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X