9 votos

Es válida para derivar una media de datos categóricos?

Estoy trabajando en un estudio para cuantificar la media de horas de trabajo para los médicos. Sin embargo, cuando me deja el campo vacío para que los encuestados se llenan, se queda sin cubrir.

Cambio en categorías como por encima de obtener mejores respuestas. (categorías de las horas de trabajo; de 1 a 10, 11 a 20 de 21 a 30)

Ahora es posible para mí para derivar una media de estos datos categóricos?

n1 x del punto medio de la categoría 1 + n2 x del punto medio de la categoría 2 ..... dividir por el total de la n

18voto

AdamSane Puntos 1825

Es un poco engañoso a solo bulto esta en con los datos ordinales; yo le llamó "binned de datos" a pesar de que formalmente es el intervalo de datos censurados (y hay una variedad de otros términos que podrían ser utilizados).

Sin duda se puede hablar de la población (ya que el subyacente escala realmente tiene una media) y la forma de estimar, trayendo en lo que se entiende acerca de la variable subyacente para ayudar a averiguar formas de calcular el bien de la papelera de la cuenta y de la papelera de límites.

Mientras que es común usar el punto medio en tales casos no es siempre la mejor opción posible. Sin embargo, uno puede tener una idea de cómo sesgada que puedan estar bajo un conjunto de supuestos por lo que es posible hacerse una idea de si realmente no importa mucho.

Donde el subyacente de la densidad disminuye, la correcta "punto medio" a utilizar sería la izquierda de la mitad del camino, y si el subyacente densidad aumenta, la correcta "punto medio" a utilizar sería la derecha de la mitad del camino.

Si usted puede venir para arriba con un posible modelo de distribución para la variable subyacente, la media puede ser estimada a partir de la binned de datos a través de máxima verosimilitud (por ejemplo).

Incluso en la ausencia de cualquier modelo en todo, uno puede poner límites a la media, desde el más bajo de la media puede ser es cuando todos los valores están en el extremo inferior de cada intervalo y más alto cuando todos están en el extremo superior de cada intervalo. [Incluso si la categoría superior es aparentemente abierto, todavía hay probabilidades de un límite superior eficaz en las horas trabajadas. por ejemplo, es simplemente imposible trabajar 25 horas en un día o 169 horas en una semana, incluso si usted no necesita comer ni dormir. Probablemente hay algún otro sustancialmente límite inferior más allá de la cual nadie puede ir por una u otra razón.]

5voto

Brandon Grossutti Puntos 140

No, yo no lo consideraría que para ser válida. El problema es que la media de los verdaderos valores en cada categoría no es probable que sea el punto medio. Por ejemplo, probablemente hay muchas más personas que contesten a las 10 horas de una hora - por lo que el promedio de horas trabajadas será de más de 5.5, pero usted está asumiendo que la media es de 5,5. Por lo tanto su estimación sesgada.

Lo que puedes hacer es considerar una escala con un extraño no-lineal de la transformación diciendo algo como: "En una escala donde el 1 = de 1 a 10, 2 = 11-20 ... la puntuación media fue de 1,8."

Pero si sólo tiene tres categorías, puedes decir "el 22% de las personas que trabajaron 1-10 horas, 43% trabajado 11-20 horas ..." a Menos que haya una muy buena razón por la que usted necesita un decir, yo haría eso.

1voto

Llaves Puntos 131

Posible? Sí, como has demostrado.

Válido? Depende de lo que quieres decir. Es una estimación, y las estimaciones pueden estar sesgados.

Considere el caso donde la mitad de los encuestados dan las medidas exactas (por ejemplo, 22 horas) y, a continuación, la mitad de darle una estimación agrupada (por ejemplo, de 21 a 30 horas). Si se calcula el promedio de la estimación agrupada como se mostró más arriba

n1 x del punto medio de la categoría 1 + n2 x del punto medio de la categoría 2 ..... dividir por el total de la n

entonces usted podría agregar que el número con la media de la medida exacta, dividir por 2, y obtener una estimación de la media de horas de trabajo.

O tal vez usted quiere dar más peso a la media de la medida exacta, y así podría hacer una media ponderada de los dos medios para estimar el promedio de horas de trabajo.

Un tercer perito podría tener este aspecto: Bin las medidas exactas en las tres categorías y, a continuación, encontrar la desviación de la empíricos promedio dentro de un contenedor desde el punto medio de ese compartimiento. (por ejemplo, con las horas exactas observó como el 22, 24 y 23, el promedio dentro de la tolva es de 23, que se desvía de 25.5 por 2.5). A continuación, puede elegir utilizar el empírica promedio dentro de la tolva (en lugar del punto medio de la bandeja) para calcular el promedio de horas de trabajo a partir de las observaciones que había medición en categorías de/contenedores:

n1 x empírica promedio (a partir de observaciones con las medidas exactas) dentro de la bandeja 1 + n2 x empírica promedio dentro de la bandeja 1 ..... dividir por el total de la n

Otro estimador podría tomar un paramétrica de la asunción y/o marco Bayesiano para estimar el promedio de la obervations con discretizan las mediciones.

Hay un montón de estimadores. La teoría de las estadísticas, se puede demostrar que algunos pueden "trabajar mejor" que otros. Si eres un frecuentista usted probablemente querrá uno con un 95% de asintótica de la cobertura. Los estimadores probablemente sería la "más válida".

Como otra respuesta señala que el método propuesto es probable que sea sesgada, y que tal vez no como "válido" como le gustaría. Presentación de informes el porcentaje de observaciones en cada contenedor, sin embargo, es una muy buena forma de explicar los datos. si usted se siente fuertemente por encima de dar una estimación de la media general, podría hacerlo, pero asegúrate de ser claro de que se utiliza un punto medio-cálculo de la estadística como el método propuesto, y tal vez indique que su estimación no es muy precisa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X