En las pruebas de hipótesis, una pregunta común es lo que es la varianza de la población? Mi pregunta es ¿cómo podemos alguna vez sabemos que la varianza de la población? Si supiéramos toda la distribución, así podríamos saber el significa de toda la población. Entonces ¿cuál es el punto de comprobación de hipótesis?
Respuestas
¿Demasiados anuncios?No estoy seguro de que este problema, en realidad, viene "a menudo" fuera de las Estadísticas 101 (introducción a la estadística). No estoy seguro de que he visto. Por otro lado, también se presenta el material que se forma cuando la enseñanza de cursos de introducción, ya que proporciona una progresión lógica: Se empieza con una simple situación en la que solo hay un grupo, y se conoce la varianza, el progreso a donde no conoces a la varianza, el progreso a donde hay dos grupos (pero con igual varianza), etc.
A la dirección un poco diferente punto, se preguntan por qué nos molestaría con la prueba de hipótesis si sabía de la varianza, ya que por lo tanto, debemos también saber la media. La última parte es razonable, pero la primera parte es un malentendido: La media de sabríamos que sería el decir, bajo la hipótesis nula. Eso es lo que vamos a probar. Considere la posibilidad de @StephanKolassa el ejemplo de las puntuaciones de CI. Sabemos que la media es 100 y la desviación estándar es de 15; lo que vamos a probar es si nuestro grupo (es decir, zurdo pelirrojas, o tal vez la introducción a las estadísticas de los estudiantes) difiere de la que.
A menudo no nos conoce la varianza de la población como tal -, pero tenemos una estimación fiable de una muestra diferente. Por ejemplo, aquí es un ejemplo de evaluar si el peso promedio de los pingüinos se ha ido al suelo, donde utilizamos la media de una pequeña-ish de la muestra, pero la variación de un independiente más grande de la muestra. Por supuesto, esto presupone que la varianza es la misma en ambas poblaciones.
Otro ejemplo podría ser la clásica IQ escalas. Estos son normalizados tienen una media de 100 y una desviación estándar de 15, utilizando realmente grandes muestras. Que se podría tomar una muestra específica (por ejemplo, 50 zurdo pelirrojas) y preguntar si su media de CI es significativamente mayor que 100, utilizando 15^2 como un "conocido" de la varianza. Por supuesto, una vez más, esto plantea la cuestión de si la varianza es realmente igual entre las dos muestras - después de todo, ya estamos probando si los medios son diferentes, así que ¿por qué debería varianzas iguales?
Línea de base: sus preocupaciones son válidas, y normalmente las pruebas con el conocido momentos sólo sirven a los propósitos didácticos. En las estadísticas de los cursos, que son por lo general inmediatamente seguido con las pruebas de uso estimado momentos.
La única manera de saber la varianza de la población es la medición de la totalidad de la población.
Sin embargo, la medición de la totalidad de la población es a menudo no es factible; se requiere de recursos, incluyendo dinero, herramientas, personal, y el acceso. Por esta razón nos poblaciones de la muestra; es la medición de un subconjunto de la población. El proceso de muestreo debe ser diseñada cuidadosamente y con el objetivo de crear una muestra de la población que es representativa de la población; dar dos consideraciones clave - el tamaño de la muestra y la técnica de muestreo.
Juguete ejemplo: Se desea estimar la varianza del peso de la población adulta de Suecia. Hay unos 9,5 millones de Suecos por lo que no es probable que usted pueda salir y medida de todos ellos. Por lo tanto, usted necesita para medir una muestra de la población a partir de la cual se puede estimar la verdadera dentro-de-la varianza de la población.
De salir a la muestra de la población sueca. Para hacer esto usted ve, y ponte en Estocolmo el centro de la ciudad, y de la misma manera sucede estar a la derecha fuera de la popular ficticio sueco cadena de hamburguesa de Burger Kungen. De hecho, está lloviendo y frío (verano) así que usted está de pie en el interior del restaurante. Aquí usted pesa más de cuatro personas.
Las posibilidades son, la muestra no refleja la población de Suecia muy bien. Lo que tienen es una muestra de personas en Estocolmo, que están en un restaurante de hamburguesas. Esto es una mala técnica de muestreo debido a que es probable que el sesgo en el resultado por no dar una representación justa de la población que está tratando de estimar. Además, tiene un pequeño tamaño de la muestra, por lo que tienen un alto riesgo de adquirir cuatro personas que están en los extremos de la población; ya sea muy ligero o muy pesado. Si usted muestreados 1000 personas que son menos propensos a causar un sesgo de muestreo; es mucho menos probable que elija 1000 personas que son inusuales que recoger cuatro que son inusuales. Una muestra de mayor tamaño, al menos, dar una estimación más precisa de la media y la varianza en el peso entre los clientes de Burger Kungen.
El histograma ilustra el efecto de la técnica de muestreo, el gris de distribución podría representar la población de Suecia de que no comer en el Burger Kungen (media de 85 kg), mientras que el rojo podría representar la población de los clientes de Burger Kungen (media de 100 kg), y el azul guiones podrían ser las cuatro personas que usted muestra. La correcta técnica de muestreo sería necesario ponderar la población de manera equitativa, y en este caso ~75% de la población, por lo tanto el 75% de las muestras que se miden, no se debe a los clientes de Burger Kungen.
Este es un tema importante con una gran cantidad de encuestas. Por ejemplo, las personas tienden a responder a las encuestas de satisfacción de los clientes, o las encuestas de opinión en las elecciones, tienden a ser representados de manera desproporcionada por aquellos con puntos de vista extremos; las personas con menos fuertes opiniones tienden a ser más reservados en la expresión de ellos.
El punto de la prueba de hipótesis es (no siempre), por ejemplo, para probar si dos poblaciones difieren el uno del otro. E. g. ¿Los clientes de Burger Kungen pesan más que los Suecos que no comer en el Burger Kungen? La capacidad de poner a prueba esta precisión depende de la adecuada técnica de muestreo y de suficiente tamaño de la muestra.
R código para probar que todo ello ocurra:
df1 = data.frame(rnorm(9500000, 85, 15), sample(c("Y","N","N","N"), replace = T))
colnames(df1) = c("weight","customer")
df1$weight = ifelse(df1$customer == "Y", df1$weight + rnorm(length(df1$weight[df1$customer =="Y"]), 15, 2), df1$weight)
subsample = sample(df1$weight[df1$customer=="Y"], size = 4)
png(paste0(path,"SwedenWeight.png"), res =1000, width = 4, height = 4, units = "in")
par(mar=c(5,6,2,2))
hist(df1$weight[df1$customer=="N"], xlab = "Kilograms", col = rgb(0,0,0,0.5), main ="")
hist(df1$weight[df1$customer=="Y"], add = T, col = rgb(1,0,0,0.5))
axis(side = 1, at = c(subsample), labels = c("","","",""), tck = -0.03, col = "blue")
axis(side = 1, at = c(0,150), labels = c("",""), tck = -0)
dev.off()
t.test(df1$weight~df1$customer)
Resultados:
> t.test(df1$weight~df1$customer)
Welch Two Sample t-test
data: df1$weight by df1$customer
t = -1327.7, df = 4042400, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-15.04688 -15.00252
sample estimates:
mean in group N mean in group Y
84.99555 100.02024
A veces la varianza de la población se establece a priori. Por ejemplo, SAT partituras se escalan para que la desviación estándar es 110 y pruebas de cociente intelectual se escalan para tener una desviación estándar de 15.
A veces en problemas aplicados, hay razones presentadas por física, economía, etcetera que nos hablan de la varianza y no incertidumbre. Otras veces, la población puede ser finita y podemos pasar a saber algunas cosas acerca de todo el mundo, pero la muestra y realizar estadísticas para conocer el resto.
En general, su preocupación es muy válida.