31 votos

¿Puede un meta-análisis de estudios que no son estadísticamente significativos llevar a una conclusión "significativa"?

Un meta-análisis incluye un grupo de estudios, todos los cuales informan de un valor P superior a 0,05. ¿Es posible que el meta-análisis global informe de un valor P inferior a 0,05? ¿En qué circunstancias?

(Estoy bastante seguro de que la respuesta es sí, pero me gustaría una referencia o explicación).

1 votos

No sé mucho sobre meta-análisis, pero tenía la impresión de que no implica ninguna prueba de hipótesis, sólo una estimación del efecto de la población, en cuyo caso no hay ninguna noción de significación.

1 votos

Bueno, un meta-análisis -a fin de cuentas- es sólo una media ponderada. Y ciertamente se puede establecer una prueba de hipótesis para esa media ponderada. Véase, por ejemplo, Borenstein, Michael, et al. "A basic introduction to fixedeffect and randomeffects models for metaanalysis". Research Synthesis Methods 1.2 (2010): 97-111.

1 votos

Las otras respuestas también son buenas, pero un caso sencillo: dos estudios son significativos a p=0,9 pero no a p=0,95. La probabilidad de que dos estudios independientes muestren ambos p>=0,9 es sólo de 0,01, por lo que su metaanálisis podría mostrar significación a p = 0,99

34voto

Christoph Hanck Puntos 4143

Sí. Suponga que tiene $N$ Los valores p de $N$ estudios independientes.

Prueba de Fisher

(EDIT - en respuesta al útil comentario de @mdewey más abajo, es relevante distinguir entre diferentes meta tests. Expongo el caso de otra meta prueba mencionada por mdewey a continuación)

La meta prueba clásica de Fisher (véase Fisher (1932), "Statistical Methods for Research Workers" ) estadística $$ F=-2\sum_{i=1}^N\ln(p_i) $$ tiene un $\chi^2_{2N}$ distribución nula, como $-2\ln(U)\sim\chi^2_2$ para una v.r. uniforme. $U$ .

Dejemos que $\chi^2_{2N}(1-\alpha)$ denotan el $(1-\alpha)$ -cuantil de la distribución nula.

Supongamos que todos los valores p son iguales a $c$ donde, posiblemente, $c>\alpha$ . Entonces, $F=-2N\ln(c)$ y $F>\chi^2_{2N}(1-\alpha)$ cuando $$c < \exp\left(-\frac{\chi^2_{2N}(1-\alpha)}{2N}\right)$$ Por ejemplo, para $\alpha=0.05$ y $N=20$ El individuo $p$ -los valores sólo tienen que ser menores que

> exp(-qchisq(0.95, df = 40)/40)
[1] 0.2480904

Por supuesto, lo que el meta-estadístico prueba es "sólo" la nulidad "agregada" de que todos los nulos individuales son verdaderos, la cual debe ser rechazada tan pronto como uno de los $N$ nulls es falso.

EDITAR:

Aquí hay un gráfico de los valores p "admisibles" contra $N$ que confirma que $c$ crece en $N$ aunque parece que se nivela en $c\approx0.36$ .

enter image description here

Encontré un límite superior para los cuantiles del $\chi^2$ distribución $$ \chi^2_{2N}(1-\alpha)\leq 2N+2\log(1/\alpha)+2\sqrt{2N\log(1/\alpha)}, $$ aquí , lo que sugiere que $\chi^2_{2N}(1-\alpha)=O(N)$ para que $\exp\left(-\frac{\chi^2_{2N}(1-\alpha)}{2N}\right)$ está limitada desde arriba por $\exp(-1)$ como $N\to\infty$ . Como $\exp(-1)\approx0.3679$ Este límite parece razonablemente claro.

Prueba de la normalidad inversa (Stouffer et al., 1949)

La estadística de la prueba viene dada por $$ Z=\frac{1}{\sqrt{N}}\sum_{i=1}^N\Phi^{-1}(p_i) $$ con $\Phi^{-1}$ la función cuantílica normal estándar. La prueba rechaza para valores negativos grandes, es decir, si $Z < -1.645$ en $\alpha=0.05$ . Por lo tanto, para $p_i=c$ , $Z=\sqrt{N}\Phi^{-1}(c)$ . Cuando $c<0.5$ , $\Phi^{-1}(c)<0$ y por lo tanto $Z\to_p-\infty$ como $N\to\infty$ . Si $c\geq0.5$ , $Z$ tomará valores en la región de aceptación para cualquier $N$ . Por lo tanto, un valor p común inferior a 0,5 es suficiente para producir un rechazo de la meta prueba como $N\to\infty$ .

Más concretamente, $Z < -1.645$ si $c<\Phi(-1.645/\sqrt{N})$ que tiende a $\Phi(0)=0.5$ desde abajo como $N\to\infty$ .

2 votos

+1 y ¡vaya! no esperaba que hubiera un límite superior en absoluto, y mucho menos $1/e$ .

0 votos

Gracias :-). Yo tampoco esperaba uno antes de ver la trama...

5 votos

Curiosamente, el método debido a Fisher es el único de los métodos comúnmente utilizados que tiene esta propiedad. Para la mayoría de los demás, lo que se llama F aumenta con N si $c>0,5) y disminuye en caso contrario. Esto se aplica al método de Stouffer y al de Edgington, así como a los métodos basados en los logits y en la media de p. Los distintos métodos que son casos especiales del método de Wilkinson (p mínimo, p máximo, etc.) tienen de nuevo propiedades diferentes.

33voto

Martin Robins Puntos 1893

En teoría, sí...

Los resultados de los estudios individuales pueden ser insignificantes, pero vistos en conjunto, los resultados pueden ser significativos.

En teoría se puede proceder tratando los resultados $y_i$ de estudio $i$ como cualquier otra variable aleatoria.

Dejemos que $y_i$ sea alguna variable aleatoria (por ejemplo, la estimación del estudio $i$ ). Entonces, si $y_i$ son independientes y $E[y_i]=\mu$ se puede estimar consistentemente la media con:

$$ \hat{\mu} = \frac{1}{n} \sum_i y_i $$

Añadiendo más suposiciones, dejemos $\sigma^2_i$ sea la varianza de la estimación $y_i$ . Entonces puede estimar eficazmente $\mu$ con ponderación de la varianza inversa:

$$\hat{\mu} = \sum_i w_i y_i \quad \quad w_i = \frac{1 / \sigma^2_i}{\sum_j 1 / \sigma^2_j}$$

En cualquiera de estos casos, $\hat{\mu}$ pueden ser estadísticamente significativas en algún nivel de confianza aunque las estimaciones individuales no lo sean.

PERO puede haber grandes problemas, cuestiones a tener en cuenta...

  1. Si $E[y_i] \neq \mu$ entonces el meta-análisis puede no converger a $\mu$ (es decir, la media del meta-análisis es un estimador inconsistente).

    Por ejemplo, si hay un sesgo en contra de la publicación de resultados negativos, este simple meta-análisis puede ser terriblemente inconsistente y sesgado. Sería como estimar la probabilidad de que una moneda salga cara observando sólo las tiradas en las que no salió cruz.

  2. $y_i$ y $y_j$ pueden no ser independientes. Por ejemplo, si dos estudios $i$ y $j$ se basaron en los mismos datos, entonces tratar $y_i$ y $y_j$ como independientes en el meta-análisis puede subestimar enormemente los errores estándar y exagerar la significación estadística. Sus estimaciones seguirían siendo coherentes, pero los errores estándar deben tener en cuenta razonablemente la correlación cruzada de los estudios.

  3. La combinación de (1) y (2) puede ser especialmente mala.

    Por ejemplo, el meta-análisis de promediar las encuestas juntas tiende a ser más preciso que cualquier encuesta individual. Pero el promedio de las encuestas sigue siendo vulnerable a los errores de correlación. Algo que ha surgido en elecciones pasadas es que los trabajadores jóvenes de las encuestas a pie de urna pueden tender a entrevistar a otros jóvenes en lugar de a personas mayores. Si todos los sondeos a pie de urna cometen el mismo error, entonces tienes una mala estimación que puedes considerar buena (los sondeos a pie de urna están correlacionados porque utilizan el mismo enfoque para realizar los sondeos a pie de urna y este enfoque genera el mismo error).

Sin duda, personas más familiarizadas con el meta-análisis pueden aportar mejores ejemplos, cuestiones más matizadas, técnicas de estimación más sofisticadas, etc..., pero esto llega a la teoría más básica y a algunos de los problemas más grandes. Si los diferentes estudios cometen errores independientes y aleatorios, el meta-análisis puede ser increíblemente potente. Si el error es sistemático en todos los estudios (por ejemplo, todos subestiman a los votantes de más edad, etc.), entonces la media de los estudios también será errónea. Si se subestima la correlación de los estudios o la correlación de los errores, se sobreestima el tamaño de la muestra total y se subestiman los errores estándar.

También hay todo tipo de cuestiones prácticas de definiciones coherentes, etc.

1 votos

Estoy criticando un meta-análisis por ignorar las dependencias entre los tamaños de los efectos (es decir, muchos tamaños de los efectos se basaron en los mismos participantes, pero fueron tratados como independientes). Los autores dicen que no hay problema, que de todos modos sólo nos interesan los moderadores. Lo que quiero decir es que tratarlos "como independientes en el meta-análisis puede subestimar enormemente los errores estándar y exagerar la significación estadística". ¿Hay algún estudio de prueba/simulación que demuestre por qué es así? Tengo muchas referencias que dicen que los errores correlacionados significan una SE subestimada... pero no sé por qué...

1 votos

@MarkWhite La idea básica no es más complicada que $\operatorname{Var}\left( \frac{1}{n} \sum_i X_i \right) = \frac{1}{n^2} \left( \sum_{i} \operatorname{Var}(X_i) + \sum_{i \neq j} \operatorname{Cov}(X_i, X_j) \right)$ . Si para todos $i$ tenemos $\operatorname{Var}(X_i) = \sigma^2$ y $\operatorname{Cov}(X_i, X_j) = 0$ para $i\neq j$ entonces $\operatorname{Var}\left( \frac{1}{n} \sum_i X_i \right) = \frac{\sigma^2}{n}$ y su error estándar es $\frac{\sigma}{\sqrt{n}}$ . Por otro lado, si los términos de covarianza son positivos y grandes, el error estándar será mayor.

0 votos

@MarkWhite No soy un experto en meta-análisis, y honestamente no sé cuál es una gran fuente de cómo uno debe hacer un meta-análisis moderno. Conceptualmente, replicar el análisis sobre los mismos datos es ciertamente útil (como lo es estudiar intensamente algunos sujetos), pero no es lo mismo que reproducir un hallazgo en nuevos sujetos independientes.

5voto

mdewey Puntos 579

La respuesta depende del método que se utilice para combinar $p$ -valores. En otras respuestas se han considerado algunos de ellos, pero aquí me centro en un método para el que la respuesta a la pregunta original es no.

El mínimo $p$ método, también conocido como método de Tippett, se suele describir en términos de un rechazo en el $\alpha_*$ nivel de la hipótesis nula. Definir $$ p_{[1]} \le p_{[2]} \dots p_{[k]} $$ para el $k$ estudios. El método de Tippett evalúa entonces si \begin{equation} p_{[1]} < 1 - (1 - \alpha_*)^{\frac{1}{k}} \end{equation}

Es fácil ver que desde el $k$ la raíz de un número menor que la unidad está más cerca de la unidad el último término es mayor que $\alpha_*$ y, por tanto, el resultado global no será significativo a menos que $p_{[1]}$ ya es menor que $\alpha_*$ .

Es posible calcular el valor crítico y, por ejemplo, si tenemos diez estudios primarios cada uno con un $p$ -de 00,05 por lo que lo más cercano a la significación puede ser entonces el valor crítico global es de 0,40. El método puede considerarse un caso especial del método de Wilkinson, que utiliza $p_{[r]}$ para $1\le r\le k$ y de hecho para el conjunto particular de estudios primarios incluso $r=2$ no es significativo ( $p=0.09$ )

El método de L H C Tippett se describe en el libro The methods of statistics. 1931 (1ª ed) y el método de Wilkinson se aquí en un artículo "Una consideración estadística en la investigación psicológica"

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X