6 votos

¿El valor P como medida del tamaño del efecto?

¿Por qué el valor p no es una medida del tamaño del efecto, es decir, un valor p más bajo tiene una D de Cohen o una diferencia media más alta? Digamos que, por ejemplo, estoy realizando múltiples pruebas t o pruebas U de Mann Whitney y utilizando una corrección del valor p, ¿el valor p más bajo de los que he calculado indica un tamaño del efecto mayor? Si no es así, ¿por qué no?

Edición: Entiendo el caso cuando los tamaños de las muestras son diferentes, la potencia es mayor con una muestra más grande y como resultado la probabilidad de detectar un efecto menor es mayor, pero me refiero a la situación cuando uno utiliza el mismo tamaño de muestra y hace múltiples pruebas. Por ejemplo, digamos que estoy comparando las alturas de los Golden State Warriors con las de otros 10 equipos o incluso comparando otros dos equipos y el tamaño de la muestra es el mismo para cada equipo, ¿un valor p más bajo en las pruebas indicaría un efecto mayor?

10voto

Aaron Puntos 36

Su intuición es correcta en este caso: aunque el valor p no se utiliza como medida del tamaño del efecto, tiene razón en que en algunas pruebas, para un tamaño de muestra fijo la distribución del valor p está relacionada monotónicamente con el tamaño del efecto y, por tanto, es implícitamente un estimador transformado del tamaño del efecto. En general, un tamaño del efecto mayor (más alejado de la hipótesis nula) se manifiesta en un valor p menor. En muchos casos es posible establecer un resultado de dominancia estocástica a este efecto.


Ejemplo - Prueba Z de una muestra de dos lados: Para ilustrar este fenómeno, consideremos el caso simple en el que tenemos datos normales IID y tomamos una muestra Prueba Z de la media de la población $\mu \in \mathbb{R}$ con una varianza poblacional conocida $\sigma = 1$ . (Este no es un escenario muy realista, pero es la versión más sencilla de la prueba de hipótesis para una media, por lo que es útil a efectos ilustrativos). Tomando una prueba de dos caras con la hipótesis nula $H_0: \mu = \mu_0$ tenemos la estadística de la prueba:

$$Z(\mathbf{x}_n) = \sqrt{n} \cdot (\bar{x}_n - \mu_0),$$

con la correspondiente función de valor p $p(\mathbf{x}_n) = 2 \cdot \Phi(-|Z(\mathbf{x}_n)|)$ . Si la verdadera media es $\mu$ entonces el valor absoluto de la estadística de la prueba tiene un distribución normal plegada :

$$|Z(\mathbf{X}_n)| \sim \text{FN} \Big( \sqrt{n} \cdot (\mu - \mu_0), 1 \Big).$$

Ahora aplicamos las reglas estándar para las transformaciones de las funciones de densidad de probabilidad para obtener la función de densidad del valor p. La transformación $p = 2 \Phi(-z)$ tiene inversa $z = - \Phi^{-1} (p/2)$ por lo que obtenemos:

$$\begin{align} f(p) &= f(z(p)) \times \Bigg| \frac{dz}{dp} \Bigg| \\[6pt] &= \text{FN} \Big( - \Phi^{-1} (\tfrac{p}{2}) \Big| \sqrt{n} \cdot (\mu - \mu_0), 1 \Big) \times \Bigg( \frac{1}{2} \cdot \frac{1}{\text{N}(\Phi^{-1} (\tfrac{p}{2})|0,1)} \Bigg) \\[6pt] &= \frac{1}{2} \cdot \frac{\exp \big( -\frac{1}{2} \cdot (- \Phi^{-1} (\tfrac{p}{2}) - n (\mu - \mu_0)^2)^2 \big) + \exp \big( -\frac{1}{2} \cdot (- \Phi^{-1} (\tfrac{p}{2}) + n (\mu - \mu_0)^2)^2 \big)}{\exp \big( -\frac{1}{2} \cdot (-\Phi^{-1} (\tfrac{p}{2}))^2 \big)}. \\[6pt] \end{align}$$

Como puede ver, la distribución del valor p depende de la media de la población $\mu$ . Con algo más de álgebra, se puede demostrar que la distribución del valor p está "dominada estocásticamente" como $|\mu - \mu_0|$ aumenta (es decir, el valor p tiende a reducirse en este caso).

6voto

Dave Puntos 76

Hagamos dos ejemplos de pruebas t.

En la primera situación, tomamos $25$ observaciones y obtener una media de $0.59218$ y la varianza de $1.891$ . Al realizar los cálculos de la prueba t de una muestra, obtenemos una t-stat de $2.1532$ y un valor p de $0.04157$ , significativo en el legendario $0.05$ -Nivel.

En la segunda situación, tomamos $250,000$ observaciones y obtener una media de $0.0245$ y la varianza de $0.9948$ . Esto da como resultado una t-stat de $12.283$ y un valor p de $\approx 0$ .

El valor p es mucho menor para la situación con el menor efecto observado.

Lo que ocurre es que el valor p es sensible al tamaño de la muestra. Esto hace que lo que se supone para contradecir la hipótesis nula, pero no acaba de medir el tamaño del efecto.

1voto

Brandon Grossutti Puntos 140

Si el tamaño de la muestra es igual, t es una función del tamaño del efecto, y p es una función de p. Por lo tanto, un mayor tamaño del efecto se asocia con una p menor.

Yo no diría que "un valor p menor en las pruebas indica un efecto mayor". Diría que los tamaños de efecto más grandes se asocian con valores p más pequeños. Pero por qué tomar una medida que es bastante fácil de interpretar y convertirla en una que es difícil de interpretar (y muy comúnmente mal interpretada).

1voto

andrew Puntos 6

El valor p es la probabilidad de que la estadística de prueba elegida sea tan grande o mayor que la observada en los datos, dada la hipótesis nula.

Normalmente, nuestra hipótesis nula es algo así como "este parámetro poblacional es igual a este valor constante" y nuestro estadístico de prueba se elige generalmente de manera que proporcione evidencia contra la hipótesis nula si es falsa - es decir, algo que, si el parámetro poblacional es no el valor dado, le dará resultados que son altamente improbables bajo la hipótesis nula. Y, por supuesto, muchas pruebas de hipótesis intentan detectar si hay algún tipo de efecto subyacente, ya sea "esta moneda es injusta" o "la administración de la vacuna COVID hace que la gente tenga menos probabilidades de contraer la enfermedad" o "todos los equipos de baloncesto fichan a jugadores de aproximadamente la misma altura".

Por lo tanto, si estamos realizando algo parecido a una prueba de hipótesis normal, un efecto mayor (es decir, una mayor diferencia entre la verdad y la hipótesis nula "todo es normal") le dará valores p más bajos (al menos en la expectativa) si todo lo demás permanece igual.

Dicho esto, las razones por las que tendemos a no decir que el valor p no es una medida del tamaño del efecto son:

  1. Supone que incluso es un "tamaño del efecto" en primer lugar. Si la prueba consiste en comparar la clasificación de las personas en una lista antes y después de una intervención, se comprueba si el orden de la lista cambia, pero no hay un efecto numérico real que se esté midiendo.

  2. La estadística de la prueba es una función de los datos observados, es decir, de la muestra, lo que significa que es un valor aleatorio, lo que significa que no puede ser una medida consistente del tamaño del efecto. Como ejemplo fácil, consideremos el caso en el que la hipótesis nula es verdadero - entonces el valor p es literalmente sólo una medida de cuán inusuales son sus datos por pura casualidad, lo que significa que obtendrá un valor p de 0,05 o menor aproximadamente 1 vez de cada 20. Si comparas 20 equipos de baloncesto con los Warriors, deberías esperar ver al menos un pequeño valor p incluso si los equipos se formaron reuniendo a ~1000 personas en una habitación y sacando sus nombres de un sombrero.

  3. Los valores P son probabilidades, por lo que su relación con el tamaño del efecto tiende a ser muy poco lineal. Así que incluso si se tiene en cuenta todo lo anterior y se tratan los componentes probabilísticos y bla, bla, bla, entonces convertir ese valor p en una medida real del tamaño del efecto puede ser un enorme dolor.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X