Al ver esto el New York Times gráfico en Donde las Parejas del Mismo Sexo en Vivo, parece que la baja de la población de los condados tienen la mayor parte de la variación (comparación de Dakota del Norte y Ohio, por ejemplo). Posiblemente algunos de los que la variación es debido al menor tamaño de la muestra. ¿Cuál es la forma correcta de ajustar para que, sobre todo teniendo en cuenta que este es de muestrean los datos del Censo?
Traté de calcular un $z$ puntuación de la media como en la Relación que cuentas para diferentes tamaños de muestra. Los puntajes resultantes parecen exageradas (-20 a 200), y me pregunto si es porque yo estaba usando el número de hogares como el tamaño de la muestra en lugar del número de muestreadas hogares. Es decir, el censo de muestras que sólo alrededor del 1% de los hogares (basado en un informe de ~3 millones de ACS encuestas), así que tal vez la línea de base del tamaño de la muestra debe ser 1/100 del número de hogares en el condado. El $z$ los resultados se reduce por un factor de 10, y los valores que se muestran aquí (todavía truncar la parte alta de la gama).
La distribución de las proporciones es un poco sesgada, y no he ajustado. Presumiblemente algunos de los sesgar son reales los valores atípicos y no sistemático de variación.
El NYT datos vidas en un archivo TSV a pesar de que algunos de los del condado de los nombres que faltan (utilizar los códigos FIPS en su lugar). Asimismo, sus datos se ajustan para tener en cuenta miscoded encuestas.
Estoy esencialmente tratando de usar la puntuación comparable a la de un gráfico de embudo, y he aquí lo que mis funnel plot parece que con los ajustes de tamaño de la muestra.
Pregunta principal: ¿Qué uso como el tamaño de la muestra para este tipo de datos en el cálculo de la $z$ puntuación? Pregunta esencial: ¿Es esta la mejor manera de estandarizar las proporciones para la comparación visual?