10 votos

¿Cómo se ve afectada la fórmula profética de Spearman-Brown por cuestiones de diferentes dificultades?

¿Cómo se ven afectados los resultados de la fórmula de la profecía de Spearman-Brown al tener preguntas de test de diferente dificultad o calificadores que son fáciles o difíciles de calificar? Un texto respetado dice que la S-B se ve afectada, pero no da detalles. (Véase la cita más abajo).

Guion, R. M (2011). Assessment, Measurement, And Prediction For Personnel Decisions, 2ª edición. Pg 477

"La fiabilidad puede aumentarse agrupando a los calificadores, utilizando la ecuación de Spearman-Brown. ... Si la fiabilidad de una sola calificación es de 0,50, entonces la fiabilidad de dos, cuatro o seis calificaciones paralelas será aproximadamente de 0,67, 0,80 y 0,86, respectivamente" (Houston, Raymond y Svec, 1991, p. 409). Me gusta esta cita porque la palabra "aproximadamente" reconoce que las estimaciones estadísticas son declaraciones "en promedio" de lo que podría esperarse si todo va como se supone. Más allá de eso, la palabra clave es "paralelo". Promediar las puntuaciones (o utilizar Spearman-Brown) si uno de los calificadores es, por ejemplo, sistemáticamente indulgente, simplemente no se ajusta a la suposición. Si los ensayos son calificados por dos calificadores, uno más indulgente que el otro, el problema es como el de utilizar dos pruebas de elección múltiple de dificultad desigual (formas no paralelas). Las puntuaciones basadas en formas de examen diferentes (no equiparadas) no son comparables. Lo mismo ocurre cuando se mezclan calificadores indulgentes y difíciles; la fiabilidad de las calificaciones agrupadas se estima incorrectamente mediante la ecuación de Spearman-Brown de la teoría clásica de los tests. Las cosas empeoran si cada juez define un constructo de forma un poco diferente".

1 votos

Creo que el problema de buscar una fuente creíble es que la respuesta viene de la teoría de la prueba, y es algo obvio si se entiende la teoría subyacente, y en particular las limitaciones de nuestra capacidad para evaluar la fiabilidad. Por eso Guion no se molesta en explicarlo. Pero de todos modos, buena suerte en su búsqueda: quizá alguien, en algún lugar, conozca una explicación mejor.

10voto

Jake Westfall Puntos 3777

Aunque me da un poco de vergüenza contradecir tanto a un "texto respetado" como a otro usuario de CV, me parece que la fórmula de Spearman-Brown es la siguiente no afectados por tener elementos de diferente dificultad. Sin duda, la fórmula de Spearman-Brown suele derivarse bajo el supuesto de que tenemos en paralelo lo que implica (entre otras cosas) que los ítems tienen la misma dificultad. Pero resulta que este supuesto no es necesario; puede relajarse para permitir dificultades desiguales, y la fórmula de Spearman-Brown seguirá siendo válida. Lo demuestro a continuación.


Recordemos que en la teoría clásica de pruebas, una medición $X$ se supone que es la suma de un componente de "puntuación verdadera" $T$ y un componente de error $E$ Eso es, $$ X = T + E, $$ con $T$ y $E$ no correlacionados. El supuesto de ítems paralelos es que todos los ítems tienen las mismas puntuaciones verdaderas, diferenciándose sólo en sus componentes de error, aunque se supone que éstos tienen igual varianza. En símbolos, para cualquier par de ítems $X$ y $X'$ , $$ T=T' \\\textrm{var}(E)=\textrm{var}(E'). $$ Veamos qué ocurre si relajamos el primer supuesto, de forma que los ítems puedan diferir en sus dificultades, y luego obtengamos la fiabilidad de la puntuación total de un test con estos nuevos supuestos. En concreto, supongamos que las puntuaciones reales pueden diferir en una constante aditiva, pero los errores siguen teniendo la misma varianza. En símbolos, $$ T=T' + c' \\\textrm{var}(E)=\textrm{var}(E'). $$ Las diferencias de dificultad se reflejan en la constante aditiva. Por ejemplo, si $c'>0$ y luego anota en $X$ tienden a ser más altas que las puntuaciones en $X'$ de modo que $X$ es "más fácil" que $X'$ . Podríamos llamarlos esencialmente paralelas por analogía con el supuesto de "equivalencia tau esencial", que relaja el modelo de equivalencia tau de forma similar.

Ahora se trata de deducir la fiabilidad de una forma de prueba de tales ítems. Consideremos un test compuesto por $k$ ítems esencialmente paralelos, cuya suma da la puntuación de la prueba. La fiabilidad es, por definición, la relación entre la varianza de la puntuación verdadera y la varianza de la puntuación observada. Para la fiabilidad de los ítems individuales, se deduce de la definición de paralelismo esencial que tienen la misma fiabilidad, que denotamos con $\rho = \sigma^2_T/(\sigma^2_T+\sigma^2_E)$ con $\sigma^2_T$ la varianza de la puntuación real y $\sigma^2_E$ la varianza del error. Para la fiabilidad de la puntuación total de la prueba, examinamos en primer lugar la varianza de la puntuación total de la prueba, que es $$ \begin{aligned} \textrm{var}(\sum_{i=1}^kT_i + E_i) &= \textrm{var}(\sum_{i=1}^kT + c_i + E_i) \\ &= k^2\sigma^2_T + k\sigma^2_E, \end{aligned} $$ donde $T$ (sin subíndice) es cualquier puntuación verdadera arbitraria a la que se pueden desplazar todas las puntuaciones verdaderas de los ítems a través de sus términos constantes, $\sigma^2_T$ es la varianza de la puntuación real, y $\sigma^2_E$ es la varianza del error. Observe que los términos constantes desaparecen. Esto es fundamental. Así pues, la fiabilidad de la puntuación total de la prueba es $$ \begin{aligned} \frac{k^2\sigma^2_T}{k^2\sigma^2_T + k\sigma^2_E} &= \frac{k\sigma^2_T}{k\sigma^2_T + \sigma^2_X - \sigma^2_T} \\&= \frac{k\rho}{1+(k-1)\rho}, \end{aligned} $$ que no es más que la fórmula clásica de Spearman-Brown, sin alterar. Esto demuestra que, aunque varíe la "dificultad" de los ítems, definida como sus puntuaciones medias, la fórmula de Spearman-Brown sigue siendo válida.

@JeremyMiles plantea algunos puntos interesantes e importantes sobre lo que puede ocurrir cuando aumentamos la longitud de los tests "en el mundo real", pero al menos según los supuestos idealizados de la teoría clásica de los tests, las variaciones en la dificultad de los ítems no importan para la fiabilidad de un test (¡en marcado contraste con los supuestos de la moderna Teoría de Respuesta al Ítem!). Esta misma línea de razonamiento básico es también la razón por la que solemos hablar de esencial tau-equivalencia en lugar de tau-equivalencia, porque la mayoría de los resultados importantes se mantienen para el caso más indulgente en el que las dificultades de los ítems (es decir, las medias) pueden diferir.

2 votos

Sí, buen punto. Lo que escribí no se sostiene necesariamente.

5voto

Brandon Grossutti Puntos 140

No es fácil decirlo.

En primer lugar, el método de Spearman-Brown supone que los ítems del test (o los calificadores) se seleccionan aleatoriamente de una población de ítems del test (o de calificadores). Esto nunca es realmente cierto, sobre todo en el caso de los tests, porque crear más ítems es difícil, y es probable que se utilicen los mejores ítems para empezar, y luego se verá que el test necesita ser más largo, por lo que se "rascará el barril" en busca de ítems.

En segundo lugar, los ítems varían en su fiabilidad, y la fiabilidad no está necesariamente relacionada con la dificultad (si ayuda, piense en la pendiente y el intercepto de la curva característica del ítem en la teoría de respuesta al ítem). Sin embargo, el cálculo de la fiabilidad (por ejemplo, el alfa de Cronbach, que es una forma de correlación intraclase) asume que las fiabilidades son todas iguales (asumen un modelo de medición esencialmente equivalente a tau, es decir, que las fiabilidades no estandarizadas de cada ítem son todas iguales). Eso es casi seguro que es un error. La adición de ítems puede aumentar o disminuir. Depende de los ítems.

Esta es otra manera de pensar en ello. Selecciono al azar una muestra de una población y calculo la media y el error estándar de la media. Esa media será un estimador insesgado de la media de la población. A continuación, aumento el tamaño de mi muestra: el valor esperado de la media es el mismo, pero es poco probable que sea realmente el mismo: es casi seguro que subirá o bajará. Al igual que espero que el error estándar se reduzca, pero la cantidad en que se reduzca no será consistente (y no es imposible que el error estándar aumente).

0 votos

¿La fórmula S-B da el mínimo, el máximo o algún valor intermedio para la fiabilidad esperada? Además, dado que las fiabilidades se calculan en términos de correlaciones, ¿por qué tienen algún efecto los ítems fáciles/difíciles o los calificadores?

0 votos

La fórmula S-B da la fiabilidad esperada. Puede ser mayor o menor. Uno de los problemas es que hay más de una forma de calcular la fiabilidad, y las suposiciones que hacen rara vez se cumplen. La teoría de la respuesta al ítem es una forma más moderna de pensar en la medición, y tiene más sentido en muchas ocasiones; por ejemplo, la fiabilidad de un test no es la misma para cada persona en la TRI.

0 votos

Si una pregunta es muy difícil, o muy fácil, puede afectar a la correlación. Por ejemplo, "7 * 11" podría ser una pregunta fiable para el tercer grado, pero para los estudiantes de matemáticas no lo es.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X