19 votos

¿Cómo el poder de una regresión logística y una prueba de t de comparar?

Es el poder de una regresión logística y un t-test equivalente? Si es así, debe ser "los datos de la densidad equivalente de" por que me refiero a que el mismo número de observaciones se obtiene el mismo poder que le ha dado un fijo alfa de .05. Considerar dos casos:

  1. [Paramétrica t-test]: 30 dibuja a partir de un binomio observación son los hechos y los valores resultantes se promedian. Esto se hace a 30 veces para el grupo a (que tiene un binomio Pr de .70 de que se produzca) y 30 veces para el grupo B (que tiene un binomio Pr de .75 de que se produzca). Este rendimientos de 30 medios por grupo que representan un resumen de 1.800 dibuja a partir de una distribución binomial. Un 58df t-test se realizó para comparar los medios.
  2. [La regresión logística]: Una regresión logística se realiza con un maniquí codificado pendiente de la representación de los miembros del grupo y cada uno de los 1.800 empates.

Mi pregunta tiene dos partes:

  1. Dado un conjunto de alfa de .05, el poder de estas metodologías ser los mismos o diferentes? Por qué? ¿Cómo puedo demostrarlo?
  2. Es la respuesta a la pregunta 1 es sensible al tamaño de la muestra va en la prueba de t, el tamaño de la muestra de cada grupo en la prueba de t, subyacente probabilidades binomiales, o algún otro factor? Si es así, ¿cómo puedo saber (sin simulación) que el poder es de hecho diferente y qué tipo de cambios se producen en qué tipo de cambios en el poder? Alternativamente, proporcionar trabajado R código que resuelve el problema utilizando la simulación.

20voto

jldugger Puntos 7490

Si he calculado correctamente, la regresión logística asintóticamente tiene el mismo poder que el t-test. Para ver esto, anote en su registro de probabilidad y calcular la expectativa de su estado de Hesse en su máximo global (negativo de las estimaciones de la varianza-covarianza de la matriz del ML de solución). No te molestes con el habitual logística de parametrización: es más fácil sólo para parametrizar con las dos probabilidades en cuestión. Los detalles dependerá de exactamente cómo se prueba la importancia de un coeficiente de regresión logística (hay varios métodos).

Que estas pruebas tienen poderes similares no debería ser demasiado sorprendente, ya que el chi-cuadrado de la teoría de ML estimaciones se basa en una aproximación normal para el registro de probabilidad, y el t-test se basa en una aproximación normal a la distribución de las proporciones. El quid de la cuestión es que ambos métodos de hacer las mismas estimaciones de los dos proporciones y ambas estimaciones tienen el mismo estándar de errores.


Un análisis real podría ser más convincente. Vamos a adoptar la terminología general para los valores de un determinado grupo (a o B):

  • $p$ es la probabilidad de un 1.
  • $n$ es el tamaño de cada conjunto de sorteos.
  • $m$ es el número de conjuntos de sorteos.
  • $N = m n$ es la cantidad de datos.
  • $k_{ij}$ (igual a $0$ o $1$) es el valor de la $j^\text{th}$ resultado de la $i^\text{th}$ conjunto de los sorteos.
  • $k_i$ es el número total de unos en la $i^\text{th}$ conjunto de los sorteos.
  • $k$ es el número total de unidades.

La regresión logística es esencialmente el estimador ML de $p$. Su logaritmo es dada por

$$\log(\mathbb{L}) = k \log(p) + (N-k) \log(1-p).$$

Sus derivados con respecto al parámetro de $p$

$$\frac{\partial \log(\mathbb{L})}{ \partial p} = \frac{k}{p} - \frac{N-k}{1-p} \text{ and}$$

$$-\frac{\partial^2 \log(\mathbb{L})}{\partial p^2} = \frac{k}{p^2} + \frac{N-k}{(1-p)^2}.$$

Configuración de la primera a cero de los rendimientos de la estimación ML ${\hat{p} = k/N}$ y el taponamiento de que en el recíproco de la segunda expresión de los rendimientos de la varianza $\hat{p}(1 - \hat{p})/N$, que es el cuadrado del error estándar.

La t estadística se obtiene a partir de los estimadores basados en los datos agrupados por conjuntos de sorteos; es decir, como la diferencia de los medios (uno del grupo a y otro del grupo B), dividido por el error estándar de la diferencia, que se obtiene a partir de las desviaciones estándar de los medios. Echemos un vistazo a la media y la desviación estándar para un grupo dado, entonces. La media es igual a $k/N$, que es idéntica a la del estimador ML $\hat{p}$. La desviación estándar en cuestión es la desviación estándar de la extracción del medio; es decir, es la desviación estándar del conjunto de $k_i/n$. Aquí está el quid de la cuestión, así que vamos a explorar algunas posibilidades.

  1. Supongamos que los datos no están agrupados en los sorteos a todos: que es, $n = 1$$m = N$. El $k_{i}$ el sorteo de los medios. Su ejemplo de la varianza es igual a $N/(N-1)$ veces $\hat{p}(1 - \hat{p})$. De esto se sigue que el error estándar es idéntica a la de ML error estándar, además de un factor de $\sqrt{N/(N-1)}$, que es esencialmente $1$ al $N = 1800$. Por lo tanto, aparte de esta pequeña diferencia, alguna de las pruebas basadas en la regresión logística será el mismo que el de un t-test y vamos a lograr esencialmente el mismo poder.

  2. Cuando los datos están agrupados, la (verdadera) de la varianza de la $k_i/n$ es igual a $p(1-p)/n$ debido a que las estadísticas $k_i$ representan la suma de $n$ Bernoulli($p$) variables, cada una con varianza $p(1-p)$. Por lo tanto, la espera error estándar de la media de $m$ de estos valores es la raíz cuadrada de $p(1-p)/n/m = p(1-p)/N$, igual que antes.

El número 2 indica la potencia de la prueba no debe variar sensiblemente con la forma en la que los sorteos se reparten (que es, con lo $m$ $n$ son variados sujetos a $m n = N$), aparte quizás de una forma bastante pequeño efecto de los cambios en la varianza de la muestra (a menos que usted fuera tan tonto como para usar muy pocos juegos de dibuja dentro de cada grupo).

Limitada simulaciones para comparar el $p = 0.70$ $p = 0.74$(con 10.000 iteraciones cada uno) de la participación de $m = 900, n = 1$ (esencialmente de regresión logística); $m = n = 30$; y $m = 2, n = 450$ (la maximización de la varianza de la muestra de ajuste) lo confirman: el poder (en $\alpha = 0.05$, a una cara) en los dos primeros casos es de 0,59 mientras que en la tercera, donde el factor de ajuste hace un cambio en el material (ahora hay sólo dos grados de libertad en lugar de 1798 o 58), que se reduce a 0.36. Otro test de comparación de $p = 0.50$ $p = 0.52$da poderes de 0.22, 0.21 y 0,15, respectivamente: de nuevo, se observa sólo un ligero descenso de la agrupación no en sorteos (=regresión logística) para agrupar en 30 grupos y una caída sustancial reduce a sólo dos grupos.

La moral de este análisis son:

  1. Usted no pierde mucho cuando la partición de la $N$ los valores de los datos en un gran número de $m$ de grupos relativamente pequeños de "sorteos".
  2. Usted puede perder apreciable de potencia mediante un pequeño número de grupos ($m$ es pequeña, $n$ - la cantidad de datos por grupo, lo que es grande).
  3. Es mejor que no agrupar en su $N$ los valores de los datos en "sorteos". Acaba de analizar como-es (usando cualquier prueba razonable, incluyendo la regresión logística y t-prueba).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X