En la Teoría Clásica de los Test, las puntuaciones observadas $X$ se pueden definir como:
$$X = T + E$$
donde $T$ son las puntuaciones verdaderas y $E$ es un error de medición. Esto significa que su varianza es:
$$\sigma^2_X = \sigma^2_T + \sigma^2_E$$
En este caso, la fiabilidad se puede definir como:
$$ \rho_{xx'} = \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_X - \sigma^2_E}{\sigma^2_X} = 1 - \frac{ \sigma^2_E }{ \sigma^2_X } $$
En la Teoría Clásica de los Test, $\sigma^2_E$ es la varianza del error y $\sigma^2_X$ es la varianza de las puntuaciones observadas.
Este enfoque podría ser transferido al marco de la IRT. Un enfoque sería:
$$ \rho_{xx'} = 1 - \frac{ \sigma^2_E }{ \sigma^2_T } $$
donde $\sigma^2_T$ es la varianza de las puntuaciones EAP. Es posible ya que las EAP son una estimación de la verdadera habilidad $\theta$. El problema es que la varianza de EAP es una subestimación de la varianza de las puntuaciones verdaderas $\sigma^2_X$ (Wu, 2005). El problema también es que con este enfoque los valores de $\rho_{xx'}$ podrían ser negativos y no queremos que la estimación de fiabilidad sea negativa. En la práctica, los valores negativos podrían sugerir que hay algo mal con el modelo.
Otro enfoque sería definir $\sigma^2_E$ como la media de los errores EAP y $\sigma^2_X$ como la varianza de las puntuaciones verdaderas, es decir $\sigma^2_X = \sigma^2_T + \sigma^2_E$ y simplemente usar la fórmula de CTT:
$$ \rho_{xx'} = \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_X - \sigma^2_E}{\sigma^2_X} = 1 - \frac{ \sigma^2_E }{ \sigma^2_X } $$
Otra posibilidad para $\sigma^2_E$, como señala Raju et al., también podría ser definirlo como:
$$\sigma^2_E = E\left[\left( \frac{1}{I_s} \right)^2\right]$$
donde $I_s$ es la función total de información del test para el examinado $s.
El punto positivo de definir la fiabilidad de esta manera es que (a) es consistente con CTT y (b) es fácil de calcular.
Otros enfoques serían usar $\sigma^2_E$ o $\sigma^2_T$ únicamente ya que ambos dicen algo sobre la fiabilidad.
Este tipo de enfoque no se utiliza comúnmente y es más popular usar el contenido de información como en la respuesta de @robin.datadrivers ya que la fiabilidad es más bien un concepto de CTT. Por lo tanto, algunos usarían para este propósito tanto las medidas de CTT (alfa de Cronbach) como las medidas de IRT (contenido de información). Sin embargo, como mencioné, es posible usar una fiabilidad similar a CTT basada en IRT.
A continuación, publico un código R para calcular la fiabilidad dado el resultado de mirt o ltm:
rel.mirt <- function(x) {
eap <- mirt::fscores(x, full.scores=T, scores.only=T, full.scores.SE=T)
e <- mean(eap[, 2]^2)
s <- var(eap[, 1])
1-(e/(s+e))
}
rel.ltm <- function(x) {
eap <- ltm::factor.scores(x, method="EAP")$score.dat
e <- mean(eap$se.z1^2)
s <- var(eap$z1)
1-(e/(s+e))
}
Referencias
Raju, N.S., Price, L.R., Oshima, T.C., & Nering, M.L. (2006). Standardized Conditional SEM: A Case for Conditional Reliability. Applied Psychological Measurement, 30(X), 1-12.
Wang, T., Kolen, M.J., & Harris, D.J. (1997). Errores Estándar Condicionales, Fiabilidad y Niveles de Desempeño de Consistencia en la Toma de Decisiones Utilizando IRT Politómico. Problemas de Fiabilidad con Evaluaciones de Desempeño: Una Colección de Documentos. ACT Research Report Series 97-3, 13-40.
Adams, R.J. (2005). La fiabilidad como un efecto de diseño de medición. Studies in Educational Evaluation, 31(2–3), 162–172.
Wu, M. (2005). El papel de los valores plausibles en encuestas a gran escala. Studies in Educational Evaluation, 31(2–3), 114-128.
0 votos
En IRT, la fiabilidad varía a lo largo del rango de theta. No hay un solo valor.