Si he calculado correctamente, la regresión logística asintóticamente tiene el mismo poder que el t-test. Para ver esto, anote en su registro de probabilidad y calcular la expectativa de su estado de Hesse en su máximo global (negativo de las estimaciones de la varianza-covarianza de la matriz del ML de solución). No te molestes con el habitual logística de parametrización: es más fácil sólo para parametrizar con las dos probabilidades en cuestión. Los detalles dependerá de exactamente cómo se prueba la importancia de un coeficiente de regresión logística (hay varios métodos).
Que estas pruebas tienen poderes similares no debería ser demasiado sorprendente, ya que el chi-cuadrado de la teoría de ML estimaciones se basa en una aproximación normal para el registro de probabilidad, y el t-test se basa en una aproximación normal a la distribución de las proporciones. El quid de la cuestión es que ambos métodos de hacer las mismas estimaciones de los dos proporciones y ambas estimaciones tienen el mismo estándar de errores.
Un análisis real podría ser más convincente. Vamos a adoptar la terminología general para los valores de un determinado grupo (a o B):
- $p$ es la probabilidad de un 1.
- $n$ es el tamaño de cada conjunto de sorteos.
- $m$ es el número de conjuntos de sorteos.
- $N = m n$ es la cantidad de datos.
- $k_{ij}$ (igual a $0$ o $1$) es el valor de la $j^\text{th}$ resultado de la $i^\text{th}$ conjunto de los sorteos.
- $k_i$ es el número total de unos en la $i^\text{th}$ conjunto de los sorteos.
- $k$ es el número total de unidades.
La regresión logística es esencialmente el estimador ML de $p$. Su logaritmo es dada por
$$\log(\mathbb{L}) = k \log(p) + (N-k) \log(1-p).$$
Sus derivados con respecto al parámetro de $p$
$$\frac{\partial \log(\mathbb{L})}{ \partial p} = \frac{k}{p} - \frac{N-k}{1-p} \text{ and}$$
$$-\frac{\partial^2 \log(\mathbb{L})}{\partial p^2} = \frac{k}{p^2} + \frac{N-k}{(1-p)^2}.$$
Configuración de la primera a cero de los rendimientos de la estimación ML ${\hat{p} = k/N}$ y el taponamiento de que en el recíproco de la segunda expresión de los rendimientos de la varianza $\hat{p}(1 - \hat{p})/N$, que es el cuadrado del error estándar.
La t estadística se obtiene a partir de los estimadores basados en los datos agrupados por conjuntos de sorteos; es decir, como la diferencia de los medios (uno del grupo a y otro del grupo B), dividido por el error estándar de la diferencia, que se obtiene a partir de las desviaciones estándar de los medios. Echemos un vistazo a la media y la desviación estándar para un grupo dado, entonces. La media es igual a $k/N$, que es idéntica a la del estimador ML $\hat{p}$. La desviación estándar en cuestión es la desviación estándar de la extracción del medio; es decir, es la desviación estándar del conjunto de $k_i/n$. Aquí está el quid de la cuestión, así que vamos a explorar algunas posibilidades.
Supongamos que los datos no están agrupados en los sorteos a todos: que es, $n = 1$$m = N$. El $k_{i}$ el sorteo de los medios. Su ejemplo de la varianza es igual a $N/(N-1)$ veces $\hat{p}(1 - \hat{p})$. De esto se sigue que el error estándar es idéntica a la de ML error estándar, además de un factor de $\sqrt{N/(N-1)}$, que es esencialmente $1$ al $N = 1800$. Por lo tanto, aparte de esta pequeña diferencia, alguna de las pruebas basadas en la regresión logística será el mismo que el de un t-test y vamos a lograr esencialmente el mismo poder.
Cuando los datos están agrupados, la (verdadera) de la varianza de la $k_i/n$ es igual a $p(1-p)/n$ debido a que las estadísticas $k_i$ representan la suma de $n$ Bernoulli($p$) variables, cada una con varianza $p(1-p)$. Por lo tanto, la espera error estándar de la media de $m$ de estos valores es la raíz cuadrada de $p(1-p)/n/m = p(1-p)/N$, igual que antes.
El número 2 indica la potencia de la prueba no debe variar sensiblemente con la forma en la que los sorteos se reparten (que es, con lo $m$ $n$ son variados sujetos a $m n = N$), aparte quizás de una forma bastante pequeño efecto de los cambios en la varianza de la muestra (a menos que usted fuera tan tonto como para usar muy pocos juegos de dibuja dentro de cada grupo).
Limitada simulaciones para comparar el $p = 0.70$ $p = 0.74$(con 10.000 iteraciones cada uno) de la participación de $m = 900, n = 1$ (esencialmente de regresión logística); $m = n = 30$; y $m = 2, n = 450$ (la maximización de la varianza de la muestra de ajuste) lo confirman: el poder (en $\alpha = 0.05$, a una cara) en los dos primeros casos es de 0,59 mientras que en la tercera, donde el factor de ajuste hace un cambio en el material (ahora hay sólo dos grados de libertad en lugar de 1798 o 58), que se reduce a 0.36. Otro test de comparación de $p = 0.50$ $p = 0.52$da poderes de 0.22, 0.21 y 0,15, respectivamente: de nuevo, se observa sólo un ligero descenso de la agrupación no en sorteos (=regresión logística) para agrupar en 30 grupos y una caída sustancial reduce a sólo dos grupos.
La moral de este análisis son:
- Usted no pierde mucho cuando la partición de la $N$ los valores de los datos en un gran número de $m$ de grupos relativamente pequeños de "sorteos".
- Usted puede perder apreciable de potencia mediante un pequeño número de grupos ($m$ es pequeña, $n$ - la cantidad de datos por grupo, lo que es grande).
- Es mejor que no agrupar en su $N$ los valores de los datos en "sorteos". Acaba de analizar como-es (usando cualquier prueba razonable, incluyendo la regresión logística y t-prueba).