8 votos

¿Cuál es la diferencia entre el arranque de la prueba t y sólo mediante un test no paramétrico de la prueba?

Quiero realizar una sola cola de prueba en una sola muestra de los números reales (N~100) en contra de un valor esperado. La población se sabe que no se distribuye normalmente. Así que por lo que he leído acerca de las estadísticas, puedo hacer mis pruebas mediante (i) la prueba de Wilcoxon, o (ii) bootstrap mis datos de ejemplo y, a continuación, hacer regularmente un t-test. Es eso correcto?

Cuál es el método preferido para minimizar el error de tipo I, y si es posible, ¿por qué, por favor?

8voto

patfla Puntos 1

Esta respuesta puede ser útil, y/o puede ser molesto. Su bienvenida y mis disculpas al mismo tiempo :)

Una cosa para recordar cuando se utiliza una distribución normal, es que tiene un conjunto de suficientes estadísticas, es decir, la media y la varianza. Lo que esto indica es que sólo la media y la varianza de la materia en la inferencia. Cualquier propiedad de la muestra, además de la media y la varianza se botan cuando se utiliza una distribución normal.

La declaración de que "la población no está normalmente distribuida" es un nombre poco apropiado - la población no está "distribuida" en todo hay una y sólo una población (imaginario conjuntos de datos y suplente mundos aparte). Suena como lo que realmente están diciendo es que su conocimiento de la población se compone de algo más que la media y la varianza

Probablemente, la única cosa a hacer es decir lo que se esta extra/diferente de conocimiento. Tal vez usted sabe que la asimetría (o conoce a la asimetría que es importante/relevante para el análisis, y no de "ruido").

Me permito sugerir que usted simplemente calcular la probabilidad de que la hipótesis es verdadera, condicionada a que la información que usted tiene. Esto incluiría los datos, y lo de la "estructura" que reclama para saber acerca de la población que hace es no-normal (algo distinto de la media y la varianza de la población). Así que llame a su sola cara de la prueba de $T$, entonces sólo tiene que calcular:

$$P(T|D,I)=\frac{P(T|I)P(D|T,I)}{P(D|I)}$$

$P(T|I)$ es la probabilidad anterior para la prueba de ser "verdadero" o "correcto" (¿qué sabemos acerca de la prueba antes de ver los datos?). $P(D|T,I)$ es el "modelo" o "probabilidad" y es similar a un valor de p (la probabilidad de los datos observados, dado que la prueba es verdadera?). Y $P(D|I)$ es a menudo llamada la "evidencia" (cómo hacer alguna de las hipótesis de predecir los datos observados?) - esta cantidad no necesitan ser asignados explícitamente, como puede ser derivado de la exigencia de que la probabilidad debe añadir a 1.

La cosa buena acerca de este método, es que la teoría de la probabilidad "construir la prueba idónea para usted". Sólo se necesita describir su información previa, y luego simplemente hacer las matemáticas. Ahora usted puede encontrar que un bootstrap puede ser necesario con el fin de evaluar una fórmula matemática - usted puede encontrar que usted debe hacer la prueba de wilcoxon - o la teoría de la probabilidad construirá una prueba de que es mejor que cualquiera de ellos (en términos de que la diabetes tipo 1 y tipo 2 error de hablar de).

1voto

Matt Mitchell Puntos 17005

Las inferencias generadas por Wilcoxon vs arranque no se puede comparar, ya que pertenecen a diferentes datos. De Wilcoxon es una prueba de rango, lo que genera inferencias que pertenecen a las filas. De arranque se aplica a los datos en bruto, y por lo tanto genera inferencias que se refieren a los datos en bruto. Si no te gusta el "bootstrapping", pero quiere inferencias que se refieren a los datos en bruto, entonces usted puede intentar una prueba de permutación (a veces referido como una prueba de aleatorización).

1voto

Usted acaba de describir la diferencia. Nadie puede saber de antemano el resultado de las diferencias, porque depende en gran medida de la naturaleza de los datos.

¿Sabe usted la distribución no normal que estés trabajando? Si es así, usted podría simular algunos de los resultados y ver cuál es la típica de las tasas de error para las diferentes pruebas fueron y cómo difieren.

1voto

Kim Puntos 1853

Gracias por la pregunta, tengo dos notas y una sugerencia.

La primera nota es que las pruebas de la teoría se realiza normalmente mediante el establecimiento de un nivel aceptable donde iba a rechazar una verdadera hipótesis (error de Tipo I), luego de minimizar el riesgo de aceptar una falsa hipótesis (error de Tipo II). Hay dos razones para esto, lo primero es que todas sus pruebas de uso de este supuesto, y en segundo lugar, en casi todos los casos no se puede minimizar los errores simultáneamente.

Mi segunda nota es que el Test de Wilcoxon hipótesis es en realidad $H_0: F_0 = F_1, H_1: F_0 \ne F_1$ donde $F_i$ son de Cdf, la relación de esta prueba para la media es una propiedad de la clase de Cdf usted está considerando y las condiciones que usted está considerando ellos bajo.

En virtud de los datos analizados se creo el "bootstrapping" probablemente sería apropiado si usted piensa que la muestra es representativa de la población de interés. Otras posibles opciones incluyen derivar un empírica de la prueba de razón de verosimilitud, o remuestreo de la prueba t y la comprobación de la solidez.

Buena suerte y háganos saber cómo el análisis resulta :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X