Siempre he pensado que las muestras de mayor tamaño son buenas.
Casi siempre, aunque hay situaciones en las que no ayudan mucho. Sin embargo, a medida que el tamaño de las muestras aumenta, cambian los aspectos concretos del problema que más preocupan.
Luego leí algo en alguna parte sobre cómo, cuando el tamaño de las muestras es mayor, es más fácil encontrar valores p significativos cuando en realidad no lo son (es decir, falsos positivos), porque la significación se exagera.
Como se ha dicho, esto es falso, aunque hay algunas cosas que pueden ser preocupantes.
Empecemos por la afirmación básica: Las muestras grandes no impiden que las pruebas de hipótesis funcionen exactamente como están diseñados. [Si puede, pida a la fuente de la afirmación algún tipo de razón para aceptarla, como pruebas de que es cierta (ya sea mediante un argumento algebraico, una simulación, un razonamiento lógico o lo que sea, o incluso una referencia). Es probable que esto dé lugar a un ligero cambio en el enunciado de la afirmación].
En general, el problema no son los falsos positivos, sino verdadero positivos en situaciones en las que la gente no los quiere.
La gente suele suponer erróneamente que la significación estadística siempre implica algo prácticamente significativo . En muestras grandes, puede que no.
Cuando el tamaño de las muestras es muy grande, incluso las diferencias más pequeñas con respecto a la situación especificada en el nulo pueden llegar a ser detectables. Esto no es un fallo de la prueba, ¡así es como debe funcionar!
[A veces me parece perverso que mientras casi todo el mundo insiste en la coherencia de sus pruebas, tantos se quejan de que algo va mal con las pruebas de hipótesis cuando realmente lo consiguen .]
Cuando esto molesta a la gente, es señal de que la comprobación de hipótesis (o al menos la forma que se utilizaba) no abordaba la pregunta de investigación real. En algunas situaciones, esto se aborda mejor mediante intervalos de confianza. En otras, se aborda mejor mediante el cálculo del tamaño del efecto. En otras situaciones, las pruebas de equivalencia podrían abordar mejor lo que quieren. En otros casos, podrían necesitar otras cosas.
[Una advertencia: si algunos de los supuestos no se cumplen, es posible que en algunas situaciones se produzca un aumento de los falsos positivos a medida que aumenta el tamaño de la muestra, pero eso es un fallo de los supuestos, más que un problema de las pruebas de hipótesis con muestras grandes en sí].
En muestras grandes, cuestiones como el sesgo de muestreo pueden dominar por completo los efectos de la variabilidad del muestreo, hasta el punto de que son lo único que se ve. Se requiere un mayor esfuerzo para abordar este tipo de problemas, porque los pequeños problemas que producen efectos que pueden ser muy pequeños en comparación con la variación del muestreo en muestras pequeñas pueden dominar en las grandes. Una vez más, el impacto de este tipo de cosas no es un problema de la prueba de hipótesis en sí, sino de la forma en que se obtuvo la muestra, o de tratarla como una muestra aleatoria cuando en realidad no lo era.
Actualmente estoy trabajando con una muestra de gran tamaño (unos 5.000 casos) en la que hice una prueba t y el valor p resultó ser inferior a 0,001. Qué prueba(s) puedo utilizar para determinar si se trata de un valor p válido o si esto ocurrió porque el tamaño de la muestra era grande.
Algunas cuestiones a tener en cuenta:
Nivel de significación: en muestras muy grandes, si se utilizan los mismos niveles de significación que en muestras pequeñas, no se están equilibrando los costes de los dos tipos de error; se puede reducir sustancialmente el error de tipo I con poco detrimento de la potencia en los tamaños de efecto que interesan - sería impar tolerar tasas de error de tipo I relativamente altas si hay poco que ganar. Las pruebas de hipótesis en muestras grandes se llevarían a cabo de forma razonable con niveles de significación sustancialmente más pequeños, al tiempo que se mantiene una buena potencia (¿por qué tener una potencia del 99,99999% si se puede obtener una potencia de, digamos, el 99,9% y reducir la tasa de error de tipo I en un factor de 10?)
Validez del valor p: Puede que desee abordar la solidez de su procedimiento ante posibles fallos de los supuestos; esto no lo aborda comprobación de hipótesis sobre los datos . También puede considerar posibles problemas relacionados con aspectos como los sesgos de muestreo (por ejemplo, ¿dispone realmente de una muestra aleatoria de la población objetivo?)
Significación práctica: calcule los IC de las diferencias reales con respecto a la situación bajo el nulo en el caso, por ejemplo, de una prueba t de dos muestras, observe un IC para la diferencia de medias*: debería excluir 0, pero ¿es tan pequeño que no le importa?
* (O, si es más relevante para su situación, quizás un cálculo del tamaño del efecto).
Una forma de tranquilizarse sobre su propia prueba sería llevar a cabo (antes de la prueba y, de hecho, esperemos que antes de tener datos) un estudio de la potencia con un tamaño del efecto pequeño pero relevante para su aplicación; si entonces tiene una potencia muy buena y una tasa de error de tipo I razonablemente baja, entonces casi siempre tomará la decisión correcta cuando el tamaño del efecto sea al menos tan grande y casi siempre tomará la decisión correcta cuando el tamaño del efecto sea 0. La única sección en la que no tomaría casi siempre la decisión correcta sería en la pequeña ventana de tamaños del efecto que fueran muy pequeños (una vez que no tuviera un fuerte interés en la prueba). La única sección en la que no se estaría tomando casi siempre la decisión correcta sería en la pequeña ventana de tamaños del efecto que fueran muy pequeños (una vez que no se tuviera un gran interés en rechazar), donde la curva de potencia aumenta de $\alpha$ a lo que fuera en su pequeño efecto de tamaño que usted hizo su cálculo de potencia en.
No soy un experto en estadística, así que disculpen mi "novatez".
El objetivo de este sitio es generar buenas preguntas y buenas respuestas, y la pregunta es bastante buena. No deberías disculparte por utilizar el sitio exactamente para lo que está aquí. [Sin embargo, algunos aspectos de esta cuestión se abordan en otras preguntas y respuestas del sitio. Si echas un vistazo a la columna "Relacionados" en la parte derecha de esta página, verás una lista de enlaces a preguntas algo similares (según un algoritmo automático). Al menos un par de las preguntas de esa lista son muy relevantes, de manera que pueden haber alterado la forma o el énfasis de su pregunta, pero la cuestión básica de la veracidad de la afirmación en sí -relativa a la posible aparición de falsos positivos- probablemente se mantendría, por lo que incluso si hubiera seguido con esas preguntas, presumiblemente seguiría teniendo que plantear la principal].
Por ejemplo, véase esta pregunta tiene $n$ de unos cien mil.
Uno de los conjuntos de datos de una de las otras preguntas de la barra lateral tiene el tamaño de la muestra en el billones . Que es una gran muestra. En ese tipo de situación, la variación muestral (y, por tanto, la comprobación de hipótesis) suele ser completamente irrelevante.