Todos los de mi formación estadística ha sido acerca de tratar con muestras (psych de fondo). Estoy involucrado en un proyecto donde tenemos un censo de conjunto de datos (datos demográficos de todos los lugares de reubicación a través de Phnom Penh, Camboya). No estoy seguro de si los métodos habituales de la comparación de medias de los grupos, tales como el uso de un ANOVA o Kruskal-Wallis, se aplican a los datos del censo. Por ejemplo, queremos saber si mayores reubicación de sitios están asociados con un mayor porcentaje de hogares con letrinas. Si los supuestos de normalidad/homoscedasticity etc se reunió me gustaría hacer una correlación de Pearson. Hay problemas con la distribución de ambas variables, aunque, así que estamos usando de Kendall τ.
El porcentaje de los inodoros variable es severamente negativamente sesgada (la mayoría de los sitios tienen el 100% de los hogares con servicios) y ninguna cantidad de la transformación de hacer la distribución normal (he intentado raíz cuadrada, registro e inversa y reflejar las transformaciones que aunque no sé cómo hacer un Cuadro de Cox). Por lo tanto hemos decidido intentar dividir en tres grupos, unos HH con aseos, un moderado porcentaje de los retretes, y la mayoría de las HH de los retretes. Con los datos del censo, sospecho que no debe usar ANOVA/paramétrica equivalente para probar la significación de la diferencia entre las medias de los grupos. ¿Me acaba de informar de que el grupo de medios y comentarios sobre la diferencia/la falta de diferencia entre ellos?
Gracias. Las referencias para el censo de análisis estadístico apreciado. He Andy Campo del SPSS libro de texto, pero es todo acerca de las muestras, lo cual es una lástima. He estado Googleando todo el día...
Hola a todos muchas gracias por sus consejos. Un amigo hizo estos comentarios sobre las estadísticas del censo:
Cuando se tiene una muestra de utilizar inferencial estadísticas para generalizar a la población. Cuando se tiene un censo de los que ya tiene los datos para el conjunto de la población, por lo que no hay necesidad de generalizar.
Por ejemplo, si usted utiliza el muestreo, y hay un 3% de diferencia entre los grupos, entonces usted tiene que utilizar inferencial estadísticas para decidir si ese 3% de diferencia es real, o simplemente debido al azar cuando se hizo el muestreo.
Pero si se hizo un censo, y hay un 3% de diferencia entre los grupos, bien, entonces definitivamente hay un 3% de diferencia. Que el 3% de diferencia no es debido al azar en el muestreo, debido a que se tienen datos para el conjunto de la población. Sin embargo, incluso con un censo usted todavía tendrá que usar su propio juicio para pensar acerca de por qué hay un 3% de diferencia (por otros motivos que el azar en el muestreo), y si el 3% de diferencia es lo suficientemente grande como para tener alguna importancia en la práctica para el trabajo que están haciendo.
Así que, básicamente, sólo el uso de estadísticas descriptivas. Las correlaciones están bien, pero sólo se necesita el valor de r para mostrar la fuerza de la correlación, no el valor de p, la cual está relacionada con el azar en el muestreo.
Muchas personas no entienden la diferencia entre la muestra estadísticas de censos y estadísticas, y se quejan de que no hacen las estadísticas correctamente. He tenido casos en donde acabé teniendo que hacer inferencial estadísticas sobre los datos del censo sólo porque la gente se quejaba mucho de que no hubo valores de p en nada!
Si usted tiene una gran cantidad de datos faltantes a partir de un censo algunas veces necesitas un poco de fantasía inferencial estadísticas para rellenarlo. Dudo que esto se aplica a usted, pero se aplica a los NOS censo de población debido a que (por alguna extraña libertario razón) completar la encuesta del censo en la no obligatoria en los estados unidos.