Un investigador desea producir un análisis combinado de varios conjuntos de datos. En algunos conjuntos de datos hay observaciones pareadas para el tratamiento A y B. En otros hay desapareado datos A y/o B. Estoy buscando una referencia para una adaptación de la prueba de t, o para una prueba de razón de verosimilitud, para esos datos parcialmente emparejados. Estoy dispuesto a (por ahora) a asumir normalidad con igual varianza y que la población para un son las mismas para cada estudio (y además para B).
Respuestas
¿Demasiados anuncios?Este es un problema que viene de mucho estoy un poco sorprendido de que yo no lo he visto explícitamente abordado.
Bueno, si usted sabía que las variaciones en los impares y los pares (que en general sería una buena oferta de menor tamaño), los pesos óptimos para las dos estimaciones de la diferencia en los grupos de medios debe tener pesos inversamente proporcional a la varianza de las estimaciones individuales de la diferencia en los valores medios.
La necesidad de estimar la varianza ocasiona alguna dificultad (el resultado de la relación de la varianza de las estimaciones es F, y creo que la resultante de los pesos de tener una distribución beta, y en consecuencia, la estadística es una especie de complicado), pero ya que usted está considerando arranque, esto puede ser una preocupación menor.
Una posibilidad alternativa que podría ser mejor en algún sentido (o, al menos, un poco más robusto a la no-normalidad, ya que estamos jugando con las proporciones de la varianza) con muy poca pérdida en la eficiencia en la normal es la base de una estimación conjunta de cambio apareadas y no apareadas clasificación de las pruebas en cada caso un tipo de Hodges-Lehmann estimación, en los impares caso en base a las medianas de pares de la cruz-muestra las diferencias y en la emparejado caso de las medianas de pares de medias-de-par-de las diferencias. De nuevo, la mínima varianza ponderada combinación lineal de los dos sería con pesos proporcional a los inversos de las desviaciones. En ese caso probablemente me inclinarse hacia una permutación (/aleatorización) en lugar de un arranque pero dependiendo de cómo se implemente el arranque que puede terminar en el mismo lugar.
En cualquier caso, es posible que desee robustify sus variaciones/reducir la varianza de la proporción. Llegar en el derecho de béisbol de los de peso es bueno, pero vas a perder muy poco de la eficiencia en la normal, por lo que es ligeramente robusto. ---
Algunos pensamientos adicionales no tenía suficiente claridad resuelto en mi cabeza antes de:
Este problema tiene claras similitudes con el de Behrens-Fisher problema, pero es aún más difícil.
Si nos fija los pesos, se podría solo golpe en una de Welch-Satterthwaite tipo de aproximación; la estructura del problema es el mismo.
Nuestro problema es que queremos optimizar los pesos, que significa que la ponderación no es fijo y, de hecho, tiende a maximizar la estadística (al menos aproximadamente, y más cerca en muestras grandes, ya que cualquier conjunto de pesos es una cantidad aleatoria estimar el mismo numerador, y estamos tratando de minimizar el denominador; los dos no son independientes).
Esto, espero, hacer el test de la chi-cuadrado aproximación peor, y casi seguramente afectar la d.f. de una aproximación aún más.
[Si este problema es factible, hay también sólo podría resultar ser una buena regla de oro que dice que 'no se puede hacer casi igual de bien, si utiliza sólo los pares de los datos en virtud de estas circunstancias, sólo los impares en virtud de estos otros conjuntos de condiciones y en el resto, este peso fijo-esquema es generalmente muy cerca de la óptima', pero no voy a aguantar la respiración a la espera de esa oportunidad. Tal regla de decisión, sin duda, tiene un impacto sobre la verdadera significación en cada caso, pero si ese efecto no era tan grande, una regla de oro sería una manera fácil para la gente a usar las de legado de software, por lo que podría ser deseable para tratar de identificar una regla similar para los usuarios en una situación semejante.]
---
Edit: Nota para el auto - Necesidad de volver y llenar en los detalles de trabajo en " superposición de muestras, pruebas, especialmente la superposición de las muestras de la prueba t
---
Se me ocurre que una aleatorización de la prueba debería funcionar bien
donde los datos están vinculados de forma aleatoria permutar las etiquetas de grupo dentro de los pares de
cuando los datos son impares, pero supuso que el común de distribución (bajo el null), permutar las asignaciones de grupo
ahora puedes pesos de base para los dos turnos con las estimaciones de fuera de la relación estimaciones de la variación ($w_1 = 1/(1+\frac{v_1}{v_2})$), calcular cada muestra aleatoria ponderada estimación de turno y ver donde la muestra se ajusta a la aleatoriedad de la distribución.
Aquí están algunas ideas. Yo, básicamente, sólo llegan a Greg Nieve conclusión de que Este problema tiene claras similitudes con el de Behrens-Fisher problema. Para evitar handwaving yo primero introducir algunas notaciones y formalizar la hipótesis.
- tenemos $n$ emparejado observaciones $x_i^{pA}$ y $x_i^{pB}$ ($i = 1, \dots, n$);
- tenemos $n_A$ $n_B$ impares observaciones $x_i^A$ ($i = 1, \dots, n_A$) y $x_i^B$ ($i = 1, \dots, n_B$);
-
cada observación es la suma de un paciente con un efecto y un efecto del tratamiento. La correspondiente al azar variables son
- $X_i^{pA} = P_i + T_i^A$, $X_i^{pB} = P_i + T_i^B$,
- $X_i^A = Q_i + U_i^A$, $X_i^A = R_i + V_i^B$
con $P_i, Q_i, R_i \sim \mathcal N(0,\sigma_P^2)$, y $T_i^\tau, U_i^\tau, V_i^\tau \sim \mathcal N(\mu_\tau, \sigma^2)$ ($\tau = A, B$).
- bajo la hipótesis nula, $\mu_A = \mu_B$.
Formamos como de costumbre una nueva variable $X_i = X_i^{pA} - X_i^{pB}$. Tenemos $X_i \sim \mathcal N(\mu_A - \mu_B, 2\sigma^2)$.
Ahora tenemos tres grupos de observaciones, el $X_i$ (tamaño de la $n$) $X_i^A$ (tamaño de la $n_A$) y el $X_i^B$ (tamaño de la $n_B$). Los medios son
- $X_\bullet\sim \mathcal N(\mu_A - \mu_B, {2\over n} \sigma^2)$
- $X^A_\bullet\sim \mathcal N(\mu_A , {1\over n_A} (\sigma_P^2 + \sigma^2))$
- $X^B_\bullet\sim \mathcal N(\mu_B , {1\over n_B} (\sigma_P^2 + \sigma^2))$
El siguiente paso natural es considerar
- $Y = X_\bullet + X^A_\bullet - X^B_\bullet \sim \mathcal N\left( 2(\mu_A-\mu_B), {2\over n} \sigma^2 + \left({1\over n_A}+ {1\over n_B}\right) (\sigma_P^2 + \sigma^2)\right)$
Ahora, básicamente, estamos estancados. Las tres sumas de cuadrados de dar estimaciones de $\sigma^2$ $n-1$ df, $\sigma_P^2 + \sigma^2$ $n_A-1$ df y $n_B-1$ df respectivamente. Los dos últimos pueden ser combinados para dar una estimación de $\left({1\over n_A}+ {1\over n_B}\right) (\sigma_P^2 + \sigma^2)$ $n_A+n_B-2$ df. La varianza de $Y$ es la suma de dos términos, cada uno de los cuales puede ser estimado, pero la recombinación no es factible, como en Behrens Fisher problema.
En este punto creo que uno puede plug-in de cualquier solución que se proponga a Behrens Fisher problema de obtener una solución a su problema.
Mi primer pensamiento fue un modelo de efectos mixtos, pero que ya ha sido discutido así que no voy a decir nada más sobre eso.
Mi pensamiento es que si fuera teóricamente posible que usted podría haber medido datos pareados en todas las materias, pero debido a los costos, errores, u otra razón, usted no tiene todos los pares, entonces usted podría tratar el desmesurados efecto para los impares temas como la falta de datos y el uso de herramientas como el algoritmo EM o Varios de Imputación (faltan al azar parece razonable, a menos que la razón por la que un tema fue sólo mide menos de 1 tratamiento fue relacionado con lo que su resultado sería bajo el otro tratamiento).
Esto puede ser incluso más fácil de encajar un bivariante normal a los datos mediante máxima verosimilitud (con la probabilidad de factor basado en los datos disponibles por el sujeto), y luego hacer una prueba de razón de verosimilitud la comparación de la distribución con los medios de la igualdad frente a diferentes medios.
Ha sido un largo tiempo desde que mi teoría de las clases, así que no sé cómo se compara de optimalidad.
Uno de los métodos propuestos en Hani M. Samawi & Robert Vogel (Diario de Estadística Aplicada , 2013) se compone de una combinación ponderada de las calificaciones T de independiente y dependiente de las muestras de tal manera que la nueva puntuación T es igual a
$T_o = \sqrt\gamma ( \frac {\mu_Y - \mu_X} {S_x^2/n_X + S_y^2/n_Y}) + \sqrt {(1-\gamma)} \frac {\mu_D} {S_D^2/n_D}$
donde $D$ representa las muestras de pares de diferencias tomado de la correlación de datos. Básicamente, la nueva puntuación T es una combinación ponderada de la unpaired T-score con el nuevo término de corrección. $\gamma$ representa la proporción de muestras independientes. Al $\gamma$ es igual a 1, la prueba es equivalente a two sample t-test, mientras que si es igual a cero, es una prueba t pareada.