8 votos

En el uso de la ponderación de las correlaciones en los datos globales de encuestas

Estoy analizando los datos de dos encuestas que he fusionado juntos:

  • El personal de la escuela de la encuesta, para los años 2005-06 y 2007-08

  • Los estudiantes de la escuela de la encuesta, para los años 2005-06 a través de 2008-09

Para ambos de estos conjuntos de datos, he observaciones (en el estudiante o personal de nivel) de 3 distritos escolares diferentes, teniendo cada uno representante de muestras por año, dentro de sus distintas distrito escolar.

Para el análisis, he combinado los datos de los estudiantes en dos 2 períodos del año (2005-07 y 2007-09). Entonces yo entonces me 'ddply'-ed cada conjunto de datos para obtener los porcentajes de personal o de los estudiantes que respondieron a las preguntas de acuerdo a los puntos de corte (por ejemplo, si contestó en la afirmativa, "de acuerdo", o si el estudiante marcado que se utiliza alcohol, etc.). Así que cuando he fusionado el personal y los estudiantes de nivel conjuntos de datos juntos, la escuela es la unidad de análisis, y sólo tengo 1 observación por la escuela por 2 años períodos de tiempo (dado que la escuela no era una falta de datos en un período de tiempo determinado).

Mi objetivo es estimar las asociaciones entre el personal y las respuestas de los estudiantes. Hasta ahora, mi plan era obtener los coeficientes de correlación de Pearson entre todas las variables (ya que todos son continuas las respuestas que representan porcentajes) para cada distrito por separado el uno del otro (como esto elimina la posibilidad de generalizar la asunción de los otros distritos en este conjunto de datos). Para ello, me gustaría que el promedio de los datos de la zona durante los dos años de todos modos para obtener una observación por la escuela.

Preguntas:

  1. Es este un adecuado plan de análisis? ¿Hay algún otro método puedo utilizar que me podría proporcionar una mejor inferencia o el poder?
  2. Si mi plan es adecuado, debo obtener ponderado de las correlaciones con base en la escuela de la inscripción (ya que hay más escuelas más pequeñas que las grandes, que estaría contribuyendo de manera desproporcionada a los coeficientes de correlación)?

He pedido al administrador de datos acerca de esto, y mencionó que los principales factores que determinan la necesidad de ponderación de mis datos es si o no creo tamaño de la escuela afecta el grado de correlación y si mi interpretación será en el estudiante o escolar. Creo que mi interpretación sea a nivel de la escuela (por ejemplo, "una escuela con este porcentaje de personal respondiendo de esta manera se correlaciona con el porcentaje de estudiantes que responde de esta manera...").

3voto

Ted Puntos 854

Me imagino que esta es la historia por ahora, pero en caso de que...

1) Sí, esto parece el adecuado. Su pregunta de investigación debe ser "es el maestro de las actitudes/comportamientos en una escuela relacionadas con las actitudes de los estudiantes/conductas en la escuela?" Si esta es tu pregunta, la escuela es la unidad de análisis adecuada (y no habría manera de hacer coincidir cada uno de los maestros a los estudiantes de todos modos).

Sólo quiero agregar advertencias sobre el uso del coeficiente de correlación de Pearson, ajenos a la cuestión de la unidad de análisis o estrategia de muestreo. El coeficiente de correlación no puede captar las relaciones no lineales, puede ser engañoso para interpretar, es fácilmente distorsionada por un par de valores atípicos, y clásicos de inferencia basado en él depende de la Normalidad (lo que no mantenga exactamente la proporción de datos, aunque puede ser una aproximación razonable). Como mínimo me gustaría cuidadosamente la gráfica de uso de métodos para comprobar que este es un enfoque sensato y no hay mejor manera de inferir la relación entre las dos variables.

2) no creo que haya necesidad de que el peso de los datos, pero me volvería a intentarlo (y espero que no cambien los resultados). Pero he de peso por el tamaño de la muestra en la escuela, no por la inscripción de tamaño. La razón sería sobre la estimación lugar de su unidad de análisis o la necesidad de "peso a la población". Usted sólo tiene una estimación del verdadero maestro y las respuestas de los estudiantes en cada escuela, dibujo en su muestra finita. Las escuelas donde había una muestra más grande que se sienten más seguros en su estimación, y por lo tanto sería bueno que se tomen más en serio en la medida de sus correlación o regresión lineal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X