Estoy analizando los datos de dos encuestas que he fusionado juntos:
El personal de la escuela de la encuesta, para los años 2005-06 y 2007-08
Los estudiantes de la escuela de la encuesta, para los años 2005-06 a través de 2008-09
Para ambos de estos conjuntos de datos, he observaciones (en el estudiante o personal de nivel) de 3 distritos escolares diferentes, teniendo cada uno representante de muestras por año, dentro de sus distintas distrito escolar.
Para el análisis, he combinado los datos de los estudiantes en dos 2 períodos del año (2005-07 y 2007-09). Entonces yo entonces me 'ddply'-ed cada conjunto de datos para obtener los porcentajes de personal o de los estudiantes que respondieron a las preguntas de acuerdo a los puntos de corte (por ejemplo, si contestó en la afirmativa, "de acuerdo", o si el estudiante marcado que se utiliza alcohol, etc.). Así que cuando he fusionado el personal y los estudiantes de nivel conjuntos de datos juntos, la escuela es la unidad de análisis, y sólo tengo 1 observación por la escuela por 2 años períodos de tiempo (dado que la escuela no era una falta de datos en un período de tiempo determinado).
Mi objetivo es estimar las asociaciones entre el personal y las respuestas de los estudiantes. Hasta ahora, mi plan era obtener los coeficientes de correlación de Pearson entre todas las variables (ya que todos son continuas las respuestas que representan porcentajes) para cada distrito por separado el uno del otro (como esto elimina la posibilidad de generalizar la asunción de los otros distritos en este conjunto de datos). Para ello, me gustaría que el promedio de los datos de la zona durante los dos años de todos modos para obtener una observación por la escuela.
Preguntas:
- Es este un adecuado plan de análisis? ¿Hay algún otro método puedo utilizar que me podría proporcionar una mejor inferencia o el poder?
- Si mi plan es adecuado, debo obtener ponderado de las correlaciones con base en la escuela de la inscripción (ya que hay más escuelas más pequeñas que las grandes, que estaría contribuyendo de manera desproporcionada a los coeficientes de correlación)?
He pedido al administrador de datos acerca de esto, y mencionó que los principales factores que determinan la necesidad de ponderación de mis datos es si o no creo tamaño de la escuela afecta el grado de correlación y si mi interpretación será en el estudiante o escolar. Creo que mi interpretación sea a nivel de la escuela (por ejemplo, "una escuela con este porcentaje de personal respondiendo de esta manera se correlaciona con el porcentaje de estudiantes que responde de esta manera...").