Aunque me da un poco de vergüenza contradecir tanto a un "texto respetado" como a otro usuario de CV, me parece que la fórmula de Spearman-Brown es la siguiente no afectados por tener elementos de diferente dificultad. Sin duda, la fórmula de Spearman-Brown suele derivarse bajo el supuesto de que tenemos en paralelo lo que implica (entre otras cosas) que los ítems tienen la misma dificultad. Pero resulta que este supuesto no es necesario; puede relajarse para permitir dificultades desiguales, y la fórmula de Spearman-Brown seguirá siendo válida. Lo demuestro a continuación.
Recordemos que en la teoría clásica de pruebas, una medición $X$ se supone que es la suma de un componente de "puntuación verdadera" $T$ y un componente de error $E$ Eso es, $$ X = T + E, $$ con $T$ y $E$ no correlacionados. El supuesto de ítems paralelos es que todos los ítems tienen las mismas puntuaciones verdaderas, diferenciándose sólo en sus componentes de error, aunque se supone que éstos tienen igual varianza. En símbolos, para cualquier par de ítems $X$ y $X'$ , $$ T=T' \\\textrm{var}(E)=\textrm{var}(E'). $$ Veamos qué ocurre si relajamos el primer supuesto, de forma que los ítems puedan diferir en sus dificultades, y luego obtengamos la fiabilidad de la puntuación total de un test con estos nuevos supuestos. En concreto, supongamos que las puntuaciones reales pueden diferir en una constante aditiva, pero los errores siguen teniendo la misma varianza. En símbolos, $$ T=T' + c' \\\textrm{var}(E)=\textrm{var}(E'). $$ Las diferencias de dificultad se reflejan en la constante aditiva. Por ejemplo, si $c'>0$ y luego anota en $X$ tienden a ser más altas que las puntuaciones en $X'$ de modo que $X$ es "más fácil" que $X'$ . Podríamos llamarlos esencialmente paralelas por analogía con el supuesto de "equivalencia tau esencial", que relaja el modelo de equivalencia tau de forma similar.
Ahora se trata de deducir la fiabilidad de una forma de prueba de tales ítems. Consideremos un test compuesto por $k$ ítems esencialmente paralelos, cuya suma da la puntuación de la prueba. La fiabilidad es, por definición, la relación entre la varianza de la puntuación verdadera y la varianza de la puntuación observada. Para la fiabilidad de los ítems individuales, se deduce de la definición de paralelismo esencial que tienen la misma fiabilidad, que denotamos con $\rho = \sigma^2_T/(\sigma^2_T+\sigma^2_E)$ con $\sigma^2_T$ la varianza de la puntuación real y $\sigma^2_E$ la varianza del error. Para la fiabilidad de la puntuación total de la prueba, examinamos en primer lugar la varianza de la puntuación total de la prueba, que es $$ \begin{aligned} \textrm{var}(\sum_{i=1}^kT_i + E_i) &= \textrm{var}(\sum_{i=1}^kT + c_i + E_i) \\ &= k^2\sigma^2_T + k\sigma^2_E, \end{aligned} $$ donde $T$ (sin subíndice) es cualquier puntuación verdadera arbitraria a la que se pueden desplazar todas las puntuaciones verdaderas de los ítems a través de sus términos constantes, $\sigma^2_T$ es la varianza de la puntuación real, y $\sigma^2_E$ es la varianza del error. Observe que los términos constantes desaparecen. Esto es fundamental. Así pues, la fiabilidad de la puntuación total de la prueba es $$ \begin{aligned} \frac{k^2\sigma^2_T}{k^2\sigma^2_T + k\sigma^2_E} &= \frac{k\sigma^2_T}{k\sigma^2_T + \sigma^2_X - \sigma^2_T} \\&= \frac{k\rho}{1+(k-1)\rho}, \end{aligned} $$ que no es más que la fórmula clásica de Spearman-Brown, sin alterar. Esto demuestra que, aunque varíe la "dificultad" de los ítems, definida como sus puntuaciones medias, la fórmula de Spearman-Brown sigue siendo válida.
@JeremyMiles plantea algunos puntos interesantes e importantes sobre lo que puede ocurrir cuando aumentamos la longitud de los tests "en el mundo real", pero al menos según los supuestos idealizados de la teoría clásica de los tests, las variaciones en la dificultad de los ítems no importan para la fiabilidad de un test (¡en marcado contraste con los supuestos de la moderna Teoría de Respuesta al Ítem!). Esta misma línea de razonamiento básico es también la razón por la que solemos hablar de esencial tau-equivalencia en lugar de tau-equivalencia, porque la mayoría de los resultados importantes se mantienen para el caso más indulgente en el que las dificultades de los ítems (es decir, las medias) pueden diferir.
1 votos
Creo que el problema de buscar una fuente creíble es que la respuesta viene de la teoría de la prueba, y es algo obvio si se entiende la teoría subyacente, y en particular las limitaciones de nuestra capacidad para evaluar la fiabilidad. Por eso Guion no se molesta en explicarlo. Pero de todos modos, buena suerte en su búsqueda: quizá alguien, en algún lugar, conozca una explicación mejor.