El $p$ -se utiliza para informar de la fuerza con la que podemos presumir en contra de una hipótesis. Como es evidente, este $p$ se estima a partir de los datos y si se recogen nuevos datos en las mismas condiciones, el nuevo $p$ es muy poco probable que el valor sea el mismo.
Halsey, Curran-Everett, Vowler & Drummond (2015) en un comentario a Nature Methods mostraron que la incertidumbre que rodea a un $p$ -puede ser bastante grande. En una respuesta, Lazzeroni, Lu y Belitskaya-Lévy (2016, misma revista) dieron un ejemplo de una observación $p$ de 0,049 cuyo intervalo de confianza va de 0,00000008 a 0,99.
Mi pregunta es: ¿conocemos la distribución muestral de $p$ ¿valores? Según esto, no depende del tamaño de la muestra (y presumiblemente de la desviación estándar de la muestra, ya que todo esto se utiliza para "estandarizar" la estadística de la prueba). ¿Supuestamente, podría depender del procedimiento de la prueba?
Sé que si $H_0$ es verdadera, la distribución de $p$ -valores es uniforme en el rango de 0 a 1 (pero no recuerdo dónde lo aprendí). Como $H_0$ es cada vez más inadecuada, la distribución de $p$ -se convierte en un pico, inclinándose sobre las probabilidades del 0% (para las pruebas de cola izquierda).
Es bastante fácil con bootstrap obtener una representación visual de la distribución del $p$ -valores. Sin embargo, una respuesta más satisfactoria sería disponer de una fórmula (mejor aún si es de forma cerrada) para saber exactamente qué características afectan a esa distribución y, por tanto, a la amplitud del intervalo de confianza.
¿Conoce usted esa fórmula, o si es posible tenerla?
0 votos
En Lazzeroni LC, Lu Y, Belitskaya-Lévy I. Los valores P en la genómica: La precisión aparente oculta una gran incertidumbre . Molecular Psychiatry 9: 1336-1340 (2014), los autores sugieren convertir la p observada en una puntuación z, encontrar el límite inferior y superior de esa puntuación z, y luego volver a convertirlos en probabilidades. ¿Tiene sentido?
0 votos
Probando la idea de Lazzeroni et al. (2014), me di cuenta de que no funciona. El intervalo de confianza obtenido de las simulaciones no es exactamente el mismo para diferentes tamaños de muestra, lo que contradice la idea de utilizar puntuaciones z.
2 votos
Creo que lo que quieres sería un intervalo de predicción para futuros valores p construido en las mismas condiciones que el valor p original ? Tal vez te refieras a un intervalo de confianza en lugar de un intervalo de predicción, pero hablar de un intervalo de confianza para un valor observado me resulta muy confuso. Tanto si te refieres a la predicción como al intervalo de confianza, estoy bastante seguro de que quieres especificar que el intervalo se refiere a la media de los futuros valores p de futuros estudios.
2 votos
@Cliff Si aceptas que existe una distribución muestral de los valores p (lo que parece incontrovertible), entonces el hecho de que los valores p estén acotados implica que esta distribución muestral tiene una expectativa. Su expectativa es evidentemente una propiedad de la distribución subyacente en el contexto de un modelo específico y una estadística de prueba específica. Teniendo en cuenta esto, parece que esta expectativa podría considerarse razonablemente como una propiedad de la propia distribución, lo que permite aplicar todos los conceptos convencionales de estimación, estimador e intervalo de confianza.
3 votos
El documento de Halsey et al que mencionó el OP y el razonamiento que lo sustenta se discute ampliamente en este hilo reciente: stats.stackexchange.com/questions/250269 - que yo diría que es incluso un duplicado (@whuber). La conclusión general de ese hilo es que Halsey et al (que toman prestadas sus afirmaciones del trabajo anterior de Cumming) son descuidados y no exponen sus supuestos. No me gusta nada su trabajo.
0 votos
@whuber: Creo que entiendo el argumento, pero la pregunta parece tener más claridad si se especifica que se está interesado en caracterizar la distribución de los valores p en las condiciones dadas y no un "intervalo de confianza de un valor p", que puede interpretarse fácilmente como un único valor observado.
0 votos
Gracias a @amoeba, efectivamente me refería a que las condiciones son idénticas: mismo tamaño de muestra, mismo procedimiento de prueba, mismo método de muestreo.
0 votos
@amoeba Me alegro de que hayas encontrado este hilo y hayas opinado. Dado que parece centrarse en la cuestión técnica de definir y calcular una distribución de valores p, más que en la filosofía subyacente y el significado de dicha distribución, me resisto a identificarlo como un duplicado de tu hilo.
2 votos
@whuber Sí, estoy de acuerdo. Aun así podría ser útil para el OP leer esas discusiones.
0 votos
@whuber Me parece interesante que el OP aquí mencionado boostrap. Bootstrap se considera una técnica general para construir intervalos de confianza alrededor de básicamente cualquier estadística. El valor P es obviamente una estadística. Así que si aplicamos bootstrap obtendremos algún intervalo alrededor de él; ¿cuál es su significado? Sospecho que no será el mismo tipo de intervalo del que hablan Cumming (y también Halsey et al y Lazzeroni et al, mencionados aquí).
3 votos
@Amoeba Cuidado: no se construye un CI para una estadística; un CI se refiere a un parámetro. En las situaciones clásicas (pruebas Z, pruebas t, etc.) existe una correspondencia uno a uno entre el estadístico y el valor p. En la medida en que una estadística puede estimar algo (normalmente un tamaño del efecto), a fortiori un valor p debe estar estimando algo, también. Pero qué podría estimar no tiene nada que ver con cómo se construye una IC. Un candidato plausible para su estimando es el valor p esperado (para un modelo dado, una estadística dada y un tamaño del efecto dado). La principal dificultad, me parece,
1 votos
(cont.) es que la teoría asintótica habitual de los tamaños de muestra crecientes no tiene sentido: a medida que cambia el tamaño de la muestra, cambia la expectativa del valor p. Su límite es $0$ , $1/2$ o $1$ dependiendo de si $H_A$ tiene o $H_0$ se mantiene (que, si es compuesto, puede dar lugar a un valor p límite de $1$ ). Por lo tanto, un valor p no estima una propiedad de una distribución subyacente: es una propiedad que se adjunta a la distribución y el tamaño específico de la muestra, así como a la estadística de la prueba. (Tengo que dejar de escribir hasta que haya pensado más en esto...)
0 votos
@whuber: la distinción entre una propiedad y un parámetro me parece bastante borrosa: Mientras tenga una naturaleza estable (es decir, que no cambie), ambos pueden ser etiquetados como parámetros. Si un parámetro $\pi$ estimado con $p$ es definir la situación actual, entonces es un parámetro, ¿no?
0 votos
La sutileza es que normalmente pensamos que los parámetros o las propiedades son independientes de cómo hagamos las observaciones: serían los mismos si tomáramos dos o doscientas observaciones. Los valores P no se comportan así.
0 votos
@whuber: ¿Y si definimos la población como compuesta por elementos $X_i$ que son realizaciones de $N \left(100+t_{n-1,\pi} \times \sigma /\sqrt{n} \right)$ en el que $t_{n-1,\pi}$ es el $\pi$ cuantil de la distribución t de Student con $n-1$ grados de libertad, y donde $n$ se determina cuando se realiza el muestreo (y no puede cambiar en el transcurso del mismo). Para esta población tan específica (y extraña), $\pi$ es constante independientemente del tamaño de la muestra con respecto a una hipótesis nula $H_0 : \mu = 100$ .
0 votos
"Definimos [el parámetro estimado por un valor p] como el valor p que se vería si se utilizaran los valores verdaderos y desconocidos de los parámetros de la población en lugar de las estimaciones de la muestra en la fórmula del valor p. Para una población determinada, el valor - es una probabilidad fija. Depende tanto del tamaño del efecto poblacional como del tamaño de la muestra, pero es independiente de todos los datos". (De Lazzeroni y otros. (Información complementaria, p. 4).
2 votos
Este artículo también puede ser útil: blog.minitab.com/blog/adventures-in-statistics-2/ . Esto parece rodear una mala comprensión de lo que $p$ es y cómo se produce: "El error más común es interpretar un valor P como la probabilidad de cometer un error al rechazar una hipótesis nula verdadera (un error de tipo I).Hay varias razones por las que los valores P no pueden ser la tasa de error. En primer lugar, los valores P se calculan basándose en los supuestos de que la nula es verdadera para la población y que la diferencia en la muestra está causada totalmente por el azar."
0 votos
"...En consecuencia, los valores P no pueden decirle la probabilidad de que el nulo sea verdadero o falso porque es 100% verdadero desde la perspectiva de los cálculos. En segundo lugar, aunque un valor P bajo indica que sus datos son poco probables suponiendo un nulo verdadero, no puede evaluar cuál de los dos casos en competencia es más probable: La nula es verdadera pero su muestra era inusual. La nula es falsa. Determinar cuál de los dos casos es más probable requiere un conocimiento de la materia y estudios de réplica".
0 votos
Lo que parece perderse en esta respuesta: stats.stackexchange.com/questions/250269/ es que el documento gira en torno a la idea de que, dada una $p$ valor, puedo decirle cuál era su Intervalo de Confianza para su prueba, y hacer ingeniería inversa de sus datos. De alguna manera, no queremos hacer la misma afirmación de "dime cuál es tu $\alpha$ es para su intervalo de confianza, y puedo predecir su $p$ valor" pensó que es esencialmente la misma pregunta.