Esta pregunta puede haber sido preguntado antes, pero no lo pude encontrar. Así que, aquí va.
De cerca de 3000 puntos de datos que puede ser caracterizado como "gana" o "pérdidas" (binomial), resulta que hay un 52,8% mala suerte gana. Este es mi variable dependiente.
También tengo algunos datos adicionales que pueden ayudar en la predicción de la gana por encima de la que podría ser considerada como una variable independiente.
La pregunta que estoy tratando de responder es:
Si mi variable independiente puede ser utilizado para predecir el 55% de victorias, cuántos ensayos (dándome un 55% de victorias) para mí estar 99% seguro de que esto no era mala suerte?
El siguiente código R es deliberadamente hacky por lo que puedo ver todo lo que está sucediendo.
#Run through a set of trial sizes
numtri <- seq(2720, 2840, 1)
#For a 52.8% probability of dumb luck wins, and the current trial size,
#calculate the number of wins at the 99% limit
numwin <- qbinom(p=0.99, size=numtri, prob=0.528)
#Divide the number of wins at the 99% limit by the trial size to
#get the percent wins.
perwin <- numwin/numtri
#Plot the percent wins versus the trial size, looking for the
#"predicted" 55% value. See the plot below.
plot(numtri, perwin, type="b", main="Looking for 0.55")
grid()
#Draw a red line at the 55% level to show which trial sizes are correct
abline(h=0.55, lwd=2, col="red")
#More than one answer? Why?........Integer issues
head(numtri)
head(numwin)
head(perwin)
En el gráfico, la respuesta es: 2740 <= numtri <= 2820
Como se puede adivinar, yo también estoy buscando el número requerido de los ensayos para el 56% de las victorias, el 57% de las victorias, el 58% de victorias, etc. Así que voy a automatizar el proceso.
Volviendo a mi pregunta. ¿Alguien ve un problema con el código, y si no, ¿alguien tiene una manera de limpiamente colarse en los bordes derecho e izquierdo de la "respuesta"?
Editar (02/13/2011) ==================================================
Por whuber la respuesta de abajo, ahora me doy cuenta de que al comparar mi suplente 55% de victorias (que vino a partir de los datos) con mi 52.8% "mala suerte" null (que también llegó a partir de los datos), tengo que lidiar con el fuzz de ambos valores medidos. En otras palabras, ser "99% seguro" (lo que significa), el 1% de la cola de AMBAS proporciones necesita ser comparada.
Para mí, para conseguir cómodo con whuber fórmula para el N, tuve que reproducir su álgebra. Además, porque sé que voy a utilizar este marco para problemas más complicados, me bootstrapped los cálculos.
A continuación algunos de los resultados. La parte superior del gráfico de la izquierda se produjo durante el proceso de arranque donde N (el número de ensayos) fue en 9000. Como se puede ver, el 1% de la cola para el null se extiende más en la alternativa de que el 1% para la alternativa. La conclusión? 9000 ensayos no es suficiente. La parte inferior izquierda del gráfico es también durante el proceso de arranque donde N es en 13.000. En este caso, el 1% de la cola para el null cae en un área de la alternativa que es menos del 1% del valor. La conclusión? 13,000 ensayos es más que suficiente (demasiados) para el nivel del 1%.
La parte superior derecha del gráfico es donde N=11109 (whuber del valor calculado) y el 1% de la cola de la nula amplía la cantidad correcta en la alternativa, alineando el 1% de las colas. La conclusión? 11109 ensayos son necesarios para el 1% de nivel de significación (ahora estoy cómodo con whuber de la fórmula).
La parte inferior derecha del gráfico es donde yo solía whuber fórmula para el N y variada y el alternativo q (tanto el 1% y el 5% de los niveles de significación) para que yo pudiera tener una referencia de lo que podría ser una "zona aceptable" para los suplentes. Además, me cubrió algunos suplentes frente a sus asociados el número de puntos de datos (los puntos azules). Un punto cae muy por debajo del 5% de nivel, y aunque podría ofrecer 72% "gana", simplemente, no existe suficiente de puntos de datos, para diferenciarla de la 52.8% "mala suerte". Así que, probablemente voy a caer en ese punto y los otros dos por debajo del 5% (y las variables independientes que se utilizaron para seleccionar los puntos).