Este es un tema complejo, que presenta muchos de los temas relacionados con: 1) en el que especifique claramente una hipótesis, 2) la comprensión de lo que los mecanismos causales (mayo) son la base de una hipótesis de efecto y 3) elección de estilo de la presentación.
Es verdad que, si aplicamos el sonido de la práctica de la estadística, a la afirmación de que "los grupos son similares", habría que realizar una prueba de equivalencia. Sin embargo, las pruebas de equivalencia sufren los mismos problemas que sus NHST contraparte: el poder es meramente un reflejo del tamaño de la muestra y el número de comparaciones: esperamos que las diferencias, pero su extensión y su efecto sobre un principal de análisis es mucho más importante.
Cuando se enfrentan a estas situaciones, la línea de base de las comparaciones casi siempre son de color rojo-arenques. La mejora en los métodos (de la ciencia y la estadística) puede ser aplicada. Tengo un par de stock de conceptos y/o respuestas que considero que cuando se responde a preguntas como esta.
Una columna "total" es más importante que la división por tratamiento columnas; una discusión es garantía de esos valores.
En los ensayos clínicos, la seguridad de la muestra es generalmente analizados. Este es el subconjunto de los que se abordó en primer lugar, a continuación, consentido, a continuación, aleatorizado, y finalmente expuesto a al menos una iteración de control o de tratamiento. En ese proceso, nos enfrentamos a diversos grados de participación de los prejuicios.
Probablemente el más importante y omite el aspecto de estos estudios es la presentación de la Tabla 1 resultados en conjunto. Esto se consigue con el propósito más importante de una Tabla 1: demostrar a otros investigadores cómo generalizables a la muestra de estudio es la población más amplia en la que se aplican los resultados.
Me resulta sorprendente cómo fijado investigadores, lectores y revisores están en la tangencial de las tendencias dentro de las características de los pacientes cuando hay una completa falta de respeto a los criterios de inclusión/exclusión y la generalización de la muestra.
Me avergüenza decir que yo era un analista en un juicio que se pasa por alto esto como un problema. Se reclutaron pacientes y, a continuación, debido a problemas logísticos, hemos esperado casi un año antes de la ejecución de la intervención. No sólo el consorte diagrama muestran una caída enorme entre esos períodos, pero la muestra cambiado. El resultado fue que gran parte de la onu/subempleados, de los mayores y más saludables que las personas que se pretende llegar. Yo tenía grandes inquietudes acerca de la generalización del estudio, pero era difícil vestíbulo de esas preocupaciones a ser conocidos.
La potencia y el Tipo-me de error de las pruebas para detectar el desequilibrio en las características basales depende del número real de caracteres
El punto de presentar un listado detallado de las variables de referencia, como se mencionó anteriormente, es dar un minucioso de instantáneas de la muestra; su historial de la paciente, laboratorios, medicamentos, y los datos demográficos. Todos estos son aspectos que los médicos utilizan para recomendar el tratamiento a los pacientes. Son todos creían predecir el resultado. Pero el número de factores es asombrosa. Cerca de 30 diferentes variables pueden ser comparados. El crudo riesgo de error de Tipo I es 1-(1-0.05)^30 = 0.79. De Bonferroni o permutación correcciones son recomendables si las pruebas deben ser realizadas.
Estadístico de prueba en su forma más pura es la intención de ser imparcial, y se supone que debe ser preespecificado. Sin embargo, la elección y presentación de las características basales a menudo es relativo. Me siento el último enfoque es el adecuado: si nos encontramos, como en mi juicio, no son interesantes los rasgos que describen la muestra efectiva, debemos tener la libertad de elegir que presente los valores ad hoc. Las pruebas pueden llevarse a cabo si es de algún valor, pero las habituales advertencias se aplican: no son hipótesis de interés, existe un alto riesgo de confusión en cuanto a lo significativo y no significativo de resultados implican, y los resultados son más que un reflejo del tamaño de la muestra y la presentación de las consideraciones que de cualquier verdad.
Rerandomization se puede hacer, pero sólo antes de que los pacientes están expuestos a tratamiento
Como ya he mencionado, la muestra analizada es típicamente la seguridad de la muestra. Sin embargo, rerandomization está fuertemente defendido y, en teoría, enfoque coherente para los pacientes que no han estado expuestos a tratamiento en estudio. Esto sólo se aplica a los entornos en que el lote de inscripción se realiza. Aquí, de 100 participantes son reclutados y aleatorizado. Si, por ejemplo, la probabilidad asigna una alta proporción de personas de edad a un grupo, a continuación, la muestra puede ser rerandomized para equilibrar la edad. Esto no se puede hacer con secuenciales o escalonados de inscripción, que es el escenario en el que la mayoría de los ensayos se llevan a cabo. Esto es porque el momento de la inscripción tiende a predecir el estado del paciente por el frecuente caso de "bias" (confuso incidente y prevalente de los criterios de elegibilidad).
Diseño equilibrado no es un requisito para la inferencia válida
La aleatorización de la asunción dice que, teóricamente, todos los participantes tendrán, en promedio, la igualdad de las distribuciones de las covariables. Sin embargo, como se mencionó anteriormente, cuando se comparan los 30 o más niveles, la probabilidad acumulada de desequilibrio no es insignificante. De hecho, el desequilibrio de las covariables puede ser irrelevante cuando se considera la totalidad.
Si la aleatorización es justo, podemos ver que la edad es elevada en el grupo de tratamiento, pero fumar es elevada en el grupo de control: ambos contribuyen de manera individual al riesgo de los resultados. Lo que se necesita para una eficiente y válida la inferencia es que la puntuación de propensión es equilibrada entre los grupos. Esta es mucho más débil condición. Por desgracia, la propensión no puede ser inspeccionado por el equilibrio sin un modelo de riesgo. Sin embargo, es fácil ver que tal propensión depende de una combinación de las covariables, y la probabilidad de que un desequilibrio en las propensiones en una muestra aleatoria es mucho menos probable, a pesar de ser imposible demostrar exactamente.
Si un modelo de riesgo es conocido, o fuertes predictores de los resultados están presentes, más eficiente y válido Eca se hace simplemente de ajustar por los factores que, independientemente de si están equilibrados entre los grupos de tratamiento
Uno de mis favoritos de los papeles, los 7 mitos de los ensayos controlados aleatorios, explica esto. Ajuste de la mejora de la eficiencia cuando la variable de ajuste es fuertemente predictivo de los resultados. Resulta que, incluso con perfecta 50/50 equilibrio, con decir bloqueado la aleatorización, o incluso como una coincidencia de cómo la aleatorización se realizó, el ajuste va a reducir la Cei, requiriendo menos a los participantes a tener una igual impulsadas estudio; esto reduce los costos y los riesgos. Es chocante que esto no se hace más a menudo.
Estudios observacionales requieren control de factores de confusión, independientemente de lo que la Tabla 1 muestra
La aleatorización de la asunción elimina la confusión. Con no aleatorizados de tratamiento, hay confusión. Un factor de confusión es una variable que es causal del resultado y predice la recepción de la cuasi-experimental de tratamiento. No existe una prueba para determinar qué variable(s) es/son los factores de confusión. El riesgo de asomándose a los datos para responder a estas preguntas es que los factores de confusión son prácticamente indistinguibles de los mediadores o aceleradores de partículas sin absolutamente perfecto medición longitudinal de valores (y aún así...). El ajuste para los mediadores atenúa el efecto de hadrones-ajuste puede causar cualquier tipo de sesgo. Además, uno no necesita ajuste para un conjunto total de factores de confusión, sino más bien deben quitar el backdoor criterio.
Por ejemplo, en un estudio de la función pulmonar y el hábito de fumar en adolescentes: los niños mayores son más propensas a fumar, pero como son más altos, su función pulmonar es mayor. Resulta que el ajuste de la altura por sí sola basta para eliminar la confusión, ya que satisface la puerta trasera criterio. Además del ajuste para la edad, simplemente pierde eficiencia. Sin embargo, simplemente inspeccionando el "equilibrio" de la tabla 1 en los fumadores y los no fumadores sugieren que la edad y la altura son "desequilibrada" y por lo tanto debe ser controlada. Que es incorrecta.