7 votos

Fiabilidad en el estilo de IRT

Informar sobre la 'fiabilidad' en IRT es más sobre las 'informaciones' obtenidas y un poco diferente de la forma clásica de usar cosas como el alfa de Cronbach y KR20.

Entonces, ¿cómo informar sobre la fiabilidad del test en el estilo IRT? Por favor, ayuda.

0 votos

En IRT, la fiabilidad varía a lo largo del rango de theta. No hay un solo valor.

9voto

Dipstick Puntos 4869

En la Teoría Clásica de los Test, las puntuaciones observadas $X$ se pueden definir como:

$$X = T + E$$

donde $T$ son las puntuaciones verdaderas y $E$ es un error de medición. Esto significa que su varianza es:

$$\sigma^2_X = \sigma^2_T + \sigma^2_E$$

En este caso, la fiabilidad se puede definir como:

$$ \rho_{xx'} = \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_X - \sigma^2_E}{\sigma^2_X} = 1 - \frac{ \sigma^2_E }{ \sigma^2_X } $$

En la Teoría Clásica de los Test, $\sigma^2_E$ es la varianza del error y $\sigma^2_X$ es la varianza de las puntuaciones observadas.

Este enfoque podría ser transferido al marco de la IRT. Un enfoque sería:

$$ \rho_{xx'} = 1 - \frac{ \sigma^2_E }{ \sigma^2_T } $$

donde $\sigma^2_T$ es la varianza de las puntuaciones EAP. Es posible ya que las EAP son una estimación de la verdadera habilidad $\theta$. El problema es que la varianza de EAP es una subestimación de la varianza de las puntuaciones verdaderas $\sigma^2_X$ (Wu, 2005). El problema también es que con este enfoque los valores de $\rho_{xx'}$ podrían ser negativos y no queremos que la estimación de fiabilidad sea negativa. En la práctica, los valores negativos podrían sugerir que hay algo mal con el modelo.

Otro enfoque sería definir $\sigma^2_E$ como la media de los errores EAP y $\sigma^2_X$ como la varianza de las puntuaciones verdaderas, es decir $\sigma^2_X = \sigma^2_T + \sigma^2_E$ y simplemente usar la fórmula de CTT:

$$ \rho_{xx'} = \frac{\sigma^2_T}{\sigma^2_X} = \frac{\sigma^2_X - \sigma^2_E}{\sigma^2_X} = 1 - \frac{ \sigma^2_E }{ \sigma^2_X } $$

Otra posibilidad para $\sigma^2_E$, como señala Raju et al., también podría ser definirlo como:

$$\sigma^2_E = E\left[\left( \frac{1}{I_s} \right)^2\right]$$

donde $I_s$ es la función total de información del test para el examinado $s.

El punto positivo de definir la fiabilidad de esta manera es que (a) es consistente con CTT y (b) es fácil de calcular.

Otros enfoques serían usar $\sigma^2_E$ o $\sigma^2_T$ únicamente ya que ambos dicen algo sobre la fiabilidad.

Este tipo de enfoque no se utiliza comúnmente y es más popular usar el contenido de información como en la respuesta de @robin.datadrivers ya que la fiabilidad es más bien un concepto de CTT. Por lo tanto, algunos usarían para este propósito tanto las medidas de CTT (alfa de Cronbach) como las medidas de IRT (contenido de información). Sin embargo, como mencioné, es posible usar una fiabilidad similar a CTT basada en IRT.

A continuación, publico un código R para calcular la fiabilidad dado el resultado de mirt o ltm:

rel.mirt <- function(x) {
    eap <- mirt::fscores(x, full.scores=T, scores.only=T, full.scores.SE=T)
    e <- mean(eap[, 2]^2)
    s <- var(eap[, 1])
    1-(e/(s+e))
}

rel.ltm <- function(x) {
    eap <- ltm::factor.scores(x, method="EAP")$score.dat
    e <- mean(eap$se.z1^2)
    s <- var(eap$z1)
    1-(e/(s+e))
}

Referencias

Raju, N.S., Price, L.R., Oshima, T.C., & Nering, M.L. (2006). Standardized Conditional SEM: A Case for Conditional Reliability. Applied Psychological Measurement, 30(X), 1-12.

Wang, T., Kolen, M.J., & Harris, D.J. (1997). Errores Estándar Condicionales, Fiabilidad y Niveles de Desempeño de Consistencia en la Toma de Decisiones Utilizando IRT Politómico. Problemas de Fiabilidad con Evaluaciones de Desempeño: Una Colección de Documentos. ACT Research Report Series 97-3, 13-40.

Adams, R.J. (2005). La fiabilidad como un efecto de diseño de medición. Studies in Educational Evaluation, 31(2–3), 162–172.

Wu, M. (2005). El papel de los valores plausibles en encuestas a gran escala. Studies in Educational Evaluation, 31(2–3), 114-128.

0 votos

No creo que estés utilizando la fórmula correcta aquí. Tus resultados deberían coincidir con el resultado impreso en la consola al usar fs <- mirt::fscores(x). De lo contrario, esto difiere significativamente de medidas como el coeficiente $\alpha$ y otras pruebas de confiabilidad.

0 votos

@philchalmers ¿podrías escribir un poco más? ¿Dónde está el error? Gracias

4 votos

Bueno, para empezar, las fórmulas de fiabilidad en sí mismas son incorrectas. La proporción debería ser $1 - \sigma_E / \sigma_X$, donde $X$ es la variabilidad total observada (no solo de las puntuaciones). Por lo tanto, para mirt, necesitas e <- mean(eap[,2]^2); s <- var(eap[,1]); rxx = 1 - (e / (s + e)) (o de manera equivalente, s / (s + e) para la proporción usual $T / (T + E) = T / X$.

4voto

Likso Puntos 68

Para empezar, veamos qué entendemos por fiabilidad. La fiabilidad se suele pensar en cuanto a lo consistente que será una medida en diferentes escenarios de medición, con todo siendo igual excepto la ocasión (misma evaluación, mismas condiciones, mismas personas, diferentes días, por ejemplo). La fiabilidad también puede ser considerada como la capacidad de distinguir entre dos respondientes.

Una de las principales diferencias entre la Teoría Clásica de los Test (TCT) y la Teoría de la Respuesta al Item (TRI) es la forma en que trata la varianza de la habilidad latente ($\theta$). La TCT considera el error estándar de medición (SEM) como fijo en toda la muestra:

$SEM = \sigma \sqrt{(1-fiabilidad)}$

donde $\sigma$ es la desviación estándar de las puntuaciones observadas. En este contexto, la fiabilidad no cambia, ni $\sigma$, por lo que el SEM es el mismo. (ver aquí para una mayor explicación).

En la TRI, hay un error estándar separado para cada valor de $\theta$. Esto tiene sentido porque estás estimando parámetros de persona para cada nivel de habilidad, y como cada uno de estos son estimaciones, tienen error de muestreo. Esto se captura mediante los errores estándar de $\theta.

Estos errores estándar son muy útiles para entender la fiabilidad de tu escala, como se estima por un modelo de respuesta a los ítems. Una aplicación útil es considerar el contenido de información de la escala en diferentes niveles de $\theta$. La información aquí se define como el inverso de la varianza. Puedes crear un buen gráfico de la Curva de Información del Test como el siguiente (describiré las barras grises en un momento):

introducir descripción de la imagen aquí El código R que usé para producir esto (usando datos reales que recolecté):

library(ltm)
plot(fit1, type = "IIC", items = 0, lwd = 2, xlab = "Puntuaciones de factor",
     main=NA,cex.main = 1.5, cex.lab = 1.3, cex.axis = 1.1)

Esto te muestra cómo cambia el contenido de la información en la escala en diferentes lugares. La información es mayor donde tienes más ítems con parámetros de dificultad estimados. Obviamente, esto siempre será cierto para las colas, donde tenemos menos información en los varios ítems observados para diferenciar la fiabilidad entre respondientes.

Puedes ver el contenido de información en rangos específicos (nuevamente con el paquete ltm). Digamos que para mi test quiero ver el porcentaje de información entre $\theta$ entre -2 y 2:

> information(fit1,range=c(-2,2))

Llamada:
grm(data = dt)

Información Total = 107.08
Información en (-2, 2) = 77.79 (72.64%)
Basado en todos los ítems

Aquí, el 72% de toda la información está entre esos valores. Puede ser interesante si usas valores de $\theta$ que tengan significado (estos fueron seleccionados totalmente arbitrariamente).

Una aplicación interesante es, digamos que has creado un puntaje de corte utilizando un método común de ajuste de estándares, como Angoff. Eso se hace a menudo creando un puntaje de corte de puntuación observado: sabemos que las puntuaciones observadas no suelen alinearse perfectamente con valores de $\theta, especialmente para un modelo de respuesta a los ítems con más de 1 parámetro. Una cosa que puedes hacer es tomar el rango de valores $\theta$ para todos los respondientes con un puntaje de corte observado, y ver el contenido de información para ese puntaje. Puedes trazar eso en la curva de información del test y ver cómo se alinea tu puntaje de corte con los picos en la curva. Eso es lo que representan las barras grises en mi gráfico - corresponden a los valores $\theta$ para dos puntajes de corte que creamos, que fueron creados en base a puntuaciones observadas, no valores de $\theta (por supuesto, si usas un método basado en puntuaciones de TRI, como el método de Bookmark, esto sería diferente).

También puedes producir un índice único de fiabilidad en la TRI: la fiabilidad de separación de persona y de ítem. Obtienes uno para ítems y personas, porque obtienes medidas de habilidad de persona y de dificultad de ítem del modelo. Esto es una buena descripción rápida de las diferencias. Busca en el archivo de ayuda de WINSTEPS la fórmula (creo que está allí). La referencia clásica de Rasch por Bond and Fox creo que tiene una descripción más detallada de ello. No estoy seguro de qué tan comunes son fuera del modelado de Rasch.

0 votos

¿Alguno de nosotros respondió a tu pregunta? Si es así, por favor márcala como respondida. Si no, quizás podamos brindar más detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X