4 votos

La prueba t pareada cuando cada punto de datos se ha medido con diferente número de veces?

Tengo un conjunto de datos existente que proviene del mismo grupo de personas antes y después de recibir un tratamiento.

El conjunto de datos proviene de cuando los participantes pusieron a prueba sus valores de azúcar en la sangre durante un período de 30 días antes de recibir una bomba de insulina y un período de 30 días después de recibir una bomba de insulina. Esta información fue obtenida de los registros de usuario (archivo de datos) y no fue controlado para asegurar que ellos fueron probados a intervalos fijos. Los participantes a prueba a sí mismos cuando se necesita para poner a prueba a lo largo del día por un período de 30 días.

Mi objetivo es determinar si el promedio de azúcar en la sangre a través de los 30 días fue diferente para el antes vs después de grupo.

Normalmente, este sería uno de los pares de muestras de la prueba t, pero por desgracia el antes y el después de grupo tienen un desigual número de puntos de datos con el grupo después de haber mucho más. Las personas son pruebas más a menudo después de recibir una bomba de insulina.

¿Cuál es la forma correcta de manejar esto?

Puedo colapso de los datos para encontrar una media para cada participante antes y después del tratamiento (a través de todos los participantes), lo que coincide con los datos y, a continuación, ejecute uno de los pares de muestras de la prueba t en estos datos, pero creo que esta no es la solución ideal.

Sería una forma dentro de los temas de ANOVA ser la prueba apropiada para ejecutar en este caso?

3voto

zowens Puntos 1417

Para los propósitos de la prueba de hipótesis, a menudo me encuentro que el enfoque más simple es la mejor.

En este caso, yo haría exactamente lo que usted considera a sí mismo: el promedio de todos los valores pre-tratamiento y todo el post-tratamiento de los valores para cada uno de los participantes, la obtención de dos valores por cada participante. A continuación, puede ejecutar una prueba t pareada en el resultado de los promedios.

No hay nada malo con este enfoque. Si lo hace y consigue $p$-valor lo suficientemente bajo como para sus propósitos, puede llamar a un día. Supongo que hay mucho más complicado modelos mixtos que uno puede configurar aquí, pero me gustaría ser escéptico de que producen mucho menor $p$-valores (y si no, entonces no hay ganancia). Mientras que los dos grandes ventajas de la simple t-test en los promedios son: (1) toma cinco minutos para llevar a cabo; (2) se toma dos líneas a explicar en un papel.


PS. Si no me equivoco, entonces con un simple ANOVA de medidas repetidas (que se le preguntó acerca) no puede aplicarse en su caso.

PPS. Tenga en cuenta que sin un grupo de control que usted no será capaz de decir si la diferencia entre pre y post (en caso de observar alguna) es debido al tratamiento o debido a que el tiempo pasa.


La actualización. Lo que escribí anteriormente estaba bajo el supuesto de que usted no tiene ninguna información acerca de los tiempos de mediciones individuales, o usted está dispuesto a asumir que el tiempo es irrelevante. @psarka sostenido (+1) que hora del día es muy relevante y, lo peor, es poco probable que la medición pre y post-tratamiento fueron distribuidas a lo largo del día, de la misma manera. Así que si usted tiene la información acerca de la medición de veces, entonces usted debe tomar mejor en cuenta, y el ejercicio se vuelve más complicado, a continuación,. Si no, bueno, no.

Además, @robin argumentó que el número de día, es importante ver la discusión en los comentarios.

1voto

Arrix Puntos 135

Soy escéptico acerca de la posibilidad de decir algo con sentido en esta situación, sin tomar diurna en cuenta. La razón es que el proceso que genera los datos.

Niveles de azúcar en sangre tienen un patrón diario (más errático o menos errático, dependiendo del paciente), en parte relacionada con el consumo de hidratos de carbono. En teoría, después de comer sus niveles de azúcar en la subida y luego caen como la insulina hace su trabajo.

De azúcar en la sangre mediciones también tienen un patrón diario: los pacientes suelen medir su sangre antes de comer, ya que necesito saber si tienen para ajustar la cantidad de insulina. Esto debe ser especialmente cierto, si el paciente se utiliza para su terapia (es decir, antes de la conexión a la bomba).

Si estamos de acuerdo en que el verdadero promedio del nivel de azúcar en sangre es el área bajo la curva de la que podríamos obtener si se midió la glucosa en sangre de forma continua, entonces

  • parece probable que el promedio de las mediciones antes de la conexión a la bomba de generar estimación sesgada de la verdadera media
  • y es poco probable que el promedio de la mayor frecuencia de las mediciones de generar la estimación que es sesgada de la misma manera.

Incluso si estas declaraciones no son verdaderas en su caso, tendrás que convencer a todo el mundo (al menos para mí) que de hecho no lo son.

Ahora, si usted está dispuesto a tomar durante el día, entonces usted puede deducir los llamados modal día antes de interruptor y después de interruptor, o comparar las mediciones correspondientes, decir antes del desayuno.

0voto

Likso Puntos 68

Si entiendo correctamente, usted debe estar ejecutando una de medidas repetidas modelo, como una especie de serie de tiempo interrumpida modelo, excepto que solo 1 (en algunos casos, ninguno) observaciones antes del tratamiento. Longitudinal de los modelos de regresión puede manejar el desequilibrio, si te tratan como en la repetición de una medida jerárquicos o multinivel modelo. En este caso, el nivel 2 del modelo es la persona, y el nivel 1 modelo para la observación dentro de la persona.

Algo como esto:

Nivel 1: $y_{it}=\hat{\beta_{0i}}+\hat{\beta_1}treat+\hat{\beta_2}time_t + \epsilon_{it}$

Nivel 2: $\hat{\beta_{0i}}=\alpha+\Sigma\hat{\gamma_i}X_i + \mu_i$

Donde los índices de $i$ $t$ representan persona y el tiempo, respectivamente. $\epsilon_{it}$ es el nivel 1 término de error, para las observaciones dentro de las personas, y $\mu_i$ es el término de error para las personas. La variable $treat$ es una variable binaria, 1 si la persona fue tratada en el tiempo $t$, 0 en caso contrario. He aquí el tiempo como un término lineal, pero se podría añadir polinomios así. Esta especificación debe decirle si, en promedio, independientemente de cuando se tomó la medida, que se ha tomado después de que el tratamiento era más alto que antes. Usted también puede ver si hay un efecto independiente del tratamiento.

$\gamma_i$ es el coeficiente de tiempo-invariante de la persona características $X$, asumiendo que usted tiene que. Usted también podría incluir variables en el tiempo las características de la persona, si un seguimiento de ellos. También he sólo supone usted está interesado en un azar de intercepción - lo que significa que la intersección de cada persona es una distribución normal, variable aleatoria, centrado alrededor de la media.

Este es un modelo básico - usted puede hacer que sea mucho más complicado. Pero puede obtener su comenzado.

Con respecto a los individuos con ningún pre-tratamiento de la observación, que puede ser incluido en el modelo - que no aportará ningún pre-tratamiento de la información, sino que proporcionarán a los adicionales de comparación para las personas con pre-tratamiento de las observaciones. Si usted tiene otras covariables esto haría mucho más fuerte.

-1voto

HardCode Puntos 3695

Su objetivo declarado es la comparación de medias de las dos muestras, cada una de las cuales tiene diferente tamaño de la muestra (es decir, n1 no es igual a n2). La manera clásica de hacer frente a este problema es el uso de Welch prueba de la t ( http://en.wikipedia.org/wiki/Welch's_t_test).

Esta prueba es exactamente apropiado en su caso debido a que relaja el requisito de la prueba de t pareada, a saber, que n1 = n2.

Este enfoque, por supuesto requiere de usted para construir correctamente su prueba de hipótesis, pero que no debería ser un problema ya que ya estaban pensando en la aplicación de una prueba t pareada. En resumen, el resto de la prueba de hipótesis debe proceder exactamente como se esperaba con la única diferencia de la aplicación de Welch en la prueba.

La buena suerte.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X