7 votos

Cómo estandarizar las proporciones a partir de los datos del Censo de EE.UU.

Al ver esto el New York Times gráfico en Donde las Parejas del Mismo Sexo en Vivo, parece que la baja de la población de los condados tienen la mayor parte de la variación (comparación de Dakota del Norte y Ohio, por ejemplo). Posiblemente algunos de los que la variación es debido al menor tamaño de la muestra. ¿Cuál es la forma correcta de ajustar para que, sobre todo teniendo en cuenta que este es de muestrean los datos del Censo?

enter image description here

Traté de calcular un $z$ puntuación de la media como en la Relación que cuentas para diferentes tamaños de muestra. Los puntajes resultantes parecen exageradas (-20 a 200), y me pregunto si es porque yo estaba usando el número de hogares como el tamaño de la muestra en lugar del número de muestreadas hogares. Es decir, el censo de muestras que sólo alrededor del 1% de los hogares (basado en un informe de ~3 millones de ACS encuestas), así que tal vez la línea de base del tamaño de la muestra debe ser 1/100 del número de hogares en el condado. El $z$ los resultados se reduce por un factor de 10, y los valores que se muestran aquí (todavía truncar la parte alta de la gama).

enter image description here

La distribución de las proporciones es un poco sesgada, y no he ajustado. Presumiblemente algunos de los sesgar son reales los valores atípicos y no sistemático de variación.

enter image description here

El NYT datos vidas en un archivo TSV a pesar de que algunos de los del condado de los nombres que faltan (utilizar los códigos FIPS en su lugar). Asimismo, sus datos se ajustan para tener en cuenta miscoded encuestas.

Estoy esencialmente tratando de usar la puntuación comparable a la de un gráfico de embudo, y he aquí lo que mis funnel plot parece que con los ajustes de tamaño de la muestra.

enter image description here

Pregunta principal: ¿Qué uso como el tamaño de la muestra para este tipo de datos en el cálculo de la $z$ puntuación? Pregunta esencial: ¿Es esta la mejor manera de estandarizar las proporciones para la comparación visual?

2voto

erik Puntos 3923

Después de hablar con los locales estadísticos y al no ver ninguna otra responde, me puede dar alguna respuesta. También estoy feliz de eliminar la pregunta de si los comentaristas piensan que es demasiado estrecho.

El número de encuestados es el de la derecha el tamaño de la muestra para la puntuación de los cálculos. Yo estaba usando un 1%, y desde entonces he aprendido que 2/3 de 1% es una mejor estimación de la tasa de respuesta. Puedo conseguir a nivel del estado de los tamaños de las muestras de la Oficina del Censo. También he verificado los datos provienen de la Encuesta de la Comunidad Americana en lugar de que el censo general, que no pide la relación de preguntas.

También se propuso excluir a la medida de los valores atípicos en el cómputo de la gran media, con la idea de que esos lugares son categóricamente diferente de la población general de los condados.

Otra técnica para el manejo de la variación debida a pequeñas muestras de Estimación de Pequeñas áreas, que puede ser pensado como una especie de ponderación más suave.

A pesar de que me había olvidado de la fuente, ahora me doy cuenta de mi inspiración para esta línea de exploración fue Howard Wainer's la discusión de temas similares con las tasas de cáncer por condado y los resultados de las pruebas de la escuela, recogidos en que Retratan el Mundo Incierto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X