Pensando un poco más en la parte de la pregunta:
¿Un mayor tamaño de la muestra aumenta siempre la potencia de las pruebas?
Si sólo estamos hablando de las pruebas que generalmente se cubren en un curso de introducción a la estadística y las condiciones para esas pruebas se mantienen (por ejemplo, muestra aleatoria simple, el teorema central del límite da una normalidad aproximada, la hipótesis nula es falsa, etc.) entonces sí, aumentar el tamaño de la muestra aumentará la potencia. Sin embargo, hay algunos casos en los que aumentar el tamaño de la muestra puede no aumentar la potencia:
Si la distribución subyacente es una Cauchy (media indefinida, varianza infinita, la CLT no se aplica), entonces aumentar el tamaño de la muestra puede no aumentar la potencia (pero no sé qué prueba estarías haciendo con esos datos, o incluso un caso realista que siguiera una Cauchy).
Un muestreo excesivo hace que los sujetos pierdan interés y dejen de cooperar. Recuerdo una presentación sobre unas elecciones en uno de los países insulares del Caribe en las que las encuestas se les fueron de las manos hasta el punto de que todos los votantes registrados eran encuestados de media cada semana y estaban tan hartos que dejaron de responder o simplemente mintieron. La presentación demostró que si hubieran utilizado muestras más pequeñas para cada encuesta, la población no se habría sentido tan frustrada y probablemente habrían obtenido mejores resultados.
El índice de respuesta y el coste. Si se planifica una encuesta por correo y se envía la encuesta a 1.000 personas pero no se hace ningún otro seguimiento, es posible que sólo se obtengan 100 respuestas, pero si se utiliza el mismo dinero para enviar sólo 200 encuestas, pero también se envían cartas de seguimiento y/o se ofrecen incentivos, es posible que se reciban 150 respuestas, por lo que la cantidad real de datos del estudio planificado más pequeño de 200 sujetos será mayor que la de los 1.000 sujetos previstos. Esto también puede influir en la calidad de los datos, una entrevista en persona de 50 personas o una entrevista telefónica de 100 personas puede producir datos de mejor calidad que una encuesta por correo de 1.000.
El concepto de potencia es sólo para los casos en que la hipótesis nula es falsa, por lo que si la nula es verdadera, la potencia no se verá afectada por el tamaño de la muestra.
Cuando se realizan varias mediciones por sujeto, el concepto de tamaño de la muestra es más complicado. Qué da más potencia, 10 mediciones en cada uno de los 20 sujetos (para un total de 200 valores medidos) o 2 mediciones en cada uno de los 50 sujetos (para un total de 100 valores medidos), a menudo la segunda dará más potencia aunque el número total de mediciones sea menor.
Si el parámetro de interés cambia con el tiempo (piense en los sondeos electorales) y la obtención de una muestra más grande requerirá más tiempo en el que las cosas podrían cambiar, entonces eso podría afectar a la potencia. Piense en comparar una muestra de 100 tomada en un solo día frente a una muestra de 1.000 tomada durante un periodo de 2 semanas (y qué pasa si hay un debate publicitado, un escándalo, etc. durante esas 2 semanas).
Si tiene una prueba cuyo error de tipo I no es exactamente alfa, y depende del tamaño de la muestra, entonces aumentar el tamaño de la muestra puede en realidad disminuir la potencia. Considere una prueba binomial con la nulidad de que la probabilidad es $0.5$ la alternativa a probar es que sea mayor, y queremos probar con $\alpha=0.05$ . Con un tamaño de muestra de $n=5$ sólo podemos rechazar si vemos 5 aciertos (tasa de error de tipo I 0,03125), con una muestra de $n=10$ rechazaremos si vemos 9 o 10 aciertos (tasa de error de tipo I 0,01074, sería 0,05469 si rechazáramos a los 8 aciertos). Si la probabilidad real es $0.6$ entonces la probabilidad de rechazar (poder) con $n=5$ es $0.07776$ y con $n=10$ es $0.04646$ Por lo tanto, duplicar el tamaño de la muestra disminuye la potencia, pero también disminuye la tasa de error de tipo I, por lo que no es una comparación justa. Aumentar el tamaño de la muestra hasta que la potencia sea significativa ( $>80\%$ ) hará mucho más difícil encontrar ejemplos como éste (aunque probablemente haya alguno en el que aumentar n en 1 disminuya ligeramente la potencia).
Si ejecuta una prueba incorrecta en la que se violan los supuestos (por ejemplo, si utiliza una prueba que asume varianzas iguales cuando son muy diferentes), es posible que su potencia no aumente.
Si primero se realiza una prueba de normalidad y luego se realiza una segunda prueba diferente basada en los resultados, es más probable que los tamaños de muestra más grandes rechacen la prueba de normalidad (incluso cuando la diferencia no es importante) y si la prueba que se realiza como resultado es menos potente que si no se rechaza la normalidad, el aumento del tamaño de la muestra podría reducir la potencia (que es un argumento en contra de la prueba previa de normalidad de los datos).
Seguramente hay otros casos que, como estos, quedan fuera del alcance de lo que el artículo de la wikipedia intentaba cubrir.
1 votos
Es trivial demostrar que un mayor tamaño de la muestra en el entorno de la IID no puede disminuir la potencia de las pruebas. En el peor de los casos, si se tiene una buena prueba para $n$ datos y ha recogido $n'\gt n$ observaciones, siempre puede aplicar su prueba a un subconjunto de $n$ de sus observaciones.
0 votos
Gracias, @whuber. ¿Por qué "un mayor tamaño de la muestra en la configuración del IID no puede disminuir la potencia de las pruebas"?
0 votos
@whuber: ¿Te refieres a que el estadístico de prueba puede ser elegido de forma arbitraria? Lo que creo es que el estadístico de prueba y el valor crítico están sujetos a algunas formas. Por ejemplo, en la prueba z, se rechaza el nulo si $Z_n(X) \geq z_{\alpha}$ , donde $z_{\alpha}$ se fija para todos los $n$ valores, y $Z_n(X)$ tiene una forma específica para todos los $n$ valores. Su potencia aumenta a medida que $n$ aumenta y por qué? ¿Es esto también lo mismo para otras pruebas que rechazan la nulidad si $T_n(X)\geq t$ para alguna estadística de prueba $T$ y se fijó $c$ ?