7 votos

Fiabilidad en la Obtención de Ejercicio

Estoy tratando de calcular la fiabilidad en la obtención de ejercicio mediante el análisis de algunos test-retest preguntas para los expertos. Los expertos provocó una serie de distribuciones de probabilidad que se compararon con el valor verdadero (que se encuentra en una fecha posterior) mediante el cálculo de las estandarizado cuadrático de las puntuaciones. Estos puntajes son los valores que estoy utilizando para calcular la fiabilidad entre el test-retest de los resultados.

Que la fiabilidad del método sería apropiado en este caso? Yo estaba buscando en su mayoría en la correlación de Pearson y el alfa de Chronbach (y de algunos valores negativos el uso de ambos métodos), pero no estoy seguro de que este es el enfoque correcto.


ACTUALIZACIÓN: Información de fondo

Los datos fueron recogidos a partir de un número de estudiantes a quienes se les pidió a predecir su propia examen real de la marca en cuatro elegido módulos, dando una distribución de probabilidad de las marcas. Un módulo se repitió luego en una fecha posterior (por lo tanto, el test-retest de ejercicio).

Una vez que el examen fue tomado, y los resultados reales estaban disponibles, los estandarizado cuadrático de las puntuaciones fueron calculadas. Estas puntuaciones son las propias reglas de puntuación utilizado para comparar evaluó las distribuciones de probabilidad con los datos observados que podría ser conocida en una etapa posterior.

La puntuación de probabilidad P se define como:

Quadratic score

donde k es el número total de suscitó probabilidades y j es el verdadero resultado.

Mi pregunta es que la fiabilidad del método, sería más apropiado cuando se trata de evaluar la fiabilidad entre las puntuaciones de los repetidos módulos? He calculado de correlación de Pearson y el alfa de Chronbach (y de algunos valores negativos el uso de ambos métodos), pero no podría ser un mejor enfoque.

5voto

DavLink Puntos 101

Tal vez no he entendido la pregunta, pero lo que describes suena como una fiabilidad test-retest de estudio en el Q puntuaciones. Usted tiene una serie de expertos, cada uno va a evaluar una serie de ítems o preguntas, en dos ocasiones (es de suponer que se fija en el tiempo). Así que, básicamente, se puede evaluar la estabilidad temporal de las sentencias mediante el cálculo de un coeficiente de correlación intraclase (ICC), el cual le dará una idea de la varianza atribuible a los sujetos en la variabilidad de las puntuaciones observadas (o, en otras palabras, de la cercanía de las observaciones sobre el mismo tema en relación a la cercanía de las observaciones en las diferentes asignaturas).

La CPI puede ser fácilmente obtenida a partir de un efecto mixto modelo que describe la medición de $y_{ij}$ de sujetos $i$ en ocasiones, $j$

$$ y_{ij}=\mu+u_i+\varepsilon_{ij},\quad \varepsilon\sim\mathcal{N}(0,\sigma^2) $$

where $u_i$ is the difference between the overall mean and subject $i$'s mean measurement, and $\varepsilon_{ij}$ is the measurement error for subject $i$ on occasion $j$. Here, this is a random-effect model. Unlike a standard ANOVA with subjects as factor, we consider the $u_i$ as random (i.i.d.) effects, $u_i\sim\mathcal{N}(0,\tau^2)$, independent of the error terms. Each measurement differ from the overall mean $\mu$ by the sum of the two error terms, among which the $u_i$ is shared between occasion on the same subjects. The total variance is then $\tau^2+\sigma^2$ and the proportion of the total variance that is accounted for by the subjects is

$$ \rho=\frac{\tau^2}{\tau^2+\sigma^2} $$

que es la corte penal internacional, o el índice de confiabilidad de un psychometrical punto de vista. Tenga en cuenta que esta fiabilidad se muestra dependiente (ya que depende de la entre-sujetos de la varianza). En lugar del modelo de efectos mixtos, se podrían obtener los mismos resultados de un ANOVA de dos vías (temas + tiempo, como factores) y la correspondiente Media de los Cuadrados. Usted encontrará referencias adicionales en aquellas preguntas relacionadas con: la Repetibilidad y el error de medición de y entre los observadores, y la confiabilidad Inter-evaluador para ordinal o de intervalo de datos.

En R, puede utilizar el icc() función de la psy paquete; el azar interceptar el modelo descrito anteriormente, corresponde al "acuerdo" de la CPI, mientras que incorpora el efecto del tiempo como un factor fijo llevaría a la "consistencia" de la CPI. También puede utilizar el lmer() función de la lme4 paquete, o a la lme() función de la nlme paquete. Este último tiene la ventaja de que usted puede fácilmente obtener el 95% de la Cei para los componentes de varianza (utilizando el intervals() de la función). Dave Garson proporciona una buena visión general (con el programa SPSS ilustraciones) en Análisis de Fiabilidad, y la Estimación de Modelos Multinivel utilizando el programa estadístico SPSS, Stata, SAS, R y constituye un útil tutorial, con aplicaciones en la evaluación de la educación. Pero la referencia definitiva es Shrout y Fleiss (1979), las Correlaciones Intraclase: se Utiliza en la Evaluación de los Calificadores Fiabilidad, Psychological Bulletin, 86(2), 420-428.

También he añadido un ejemplo de secuencia de comandos de R en Githhub, que incluye el análisis de VARIANZA y efecto mixto de enfoques.

También, en caso de agregar un valor constante para todos los valores tomados en la segunda ocasión, la correlación de Pearson permanecería idéntico (porque se basa en las desviaciones de la 1ª y 2ª mediciones de sus respectivos medios), mientras que la fiabilidad, ya que se calcula a través de la aleatorios interceptar modelo (o el acuerdo de la CPI) podría disminuir.

Por CIERTO, el alfa de Cronbach, no es muy útil en este caso, ya que es simplemente una medida de la consistencia interna (sin embargo, otra forma de "fiabilidad") de una escala unidimensional; no tendría sentido debe ser calculada sobre los elementos que subyacen a las diferentes construcciones. Incluso si sus preguntas de la encuesta de un único dominio, es difícil imaginar la mezcla de las dos series de mediciones, y el alfa de Cronbach debería ser calculado en cada juego por separado. Asociado de 95% intervalo de confianza (calculada por bootstrap) debe proporcionar una indicación acerca de la estabilidad de la estructura interna entre las dos ocasiones de la prueba.

Como un ejemplo de los trabajos aplicados de la corte, me permito sugerir

Johnson, SR, Tomlinson, GA, Hawker, GA, Granton, JT, Grosbein, JA, y Feldman, BM (2010). Una válida y fiable creencia método para la obtención de la Bayesiano de los priores. Diario de Epidemiología Clínica, 63(4), 370-383.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X