Usted no puede tener una parada de la regla sin tener alguna idea de su distribución y su tamaño del efecto - que no sabes a priori.
También sí, tenemos que centrarnos en el tamaño del efecto - y nunca ha sido considerado como correcto considerar sólo los valores de p, y por supuesto no deberíamos estar mostrando tablas o gráficos que muestran los valores de p o F-valores en lugar de tamaño del efecto.
Hay problemas con la tradicional Hipótesis Estadística la Inferencia de las Pruebas (que dice Cohen es digno de su acrónimo, y Fisher y Pearson tanto que la vuelta en las tumbas si vieron todo lo que se hace en sus opusieron violentamente nombres de hoy).
Para determinar N, usted necesita tener ya determinado un objetivo de importancia y el poder de umbral, así como de hacer un montón de suposiciones acerca de la distribución, y, en particular, también es necesario tener determinado el tamaño del efecto que se desea establecer. Indolering es exactamente lo que este debe ser el punto de partida - ¿a partir de qué tamaño de efecto sería rentable!
La "Nueva" Estadísticas es la defensa de mostrar los tamaños del efecto (como asociado diferencia cuando proceda), junto con la correspondiente desviación estándar o la varianza (porque necesitamos entender la distribución), y la desviación estándar o intervalos de confianza (pero la segunda ya es el bloqueo en un p-valor y una decisión acerca de si usted es la predicción de una dirección o una de cada apuesta). Pero estableciendo un mínimo efecto de determinado signo con una predicción científica, hace que esta claro que aunque el pre-científico predeterminado es hacer la prueba y el error y buscar las diferencias. Pero de nuevo se han hecho conjeturas acerca de la normalidad si ir por este camino.
Otro enfoque es utilizar el cuadro de parcelas como un enfoque no paramétrico, pero las convenciones acerca de los bigotes y los valores extremos varían ampliamente e incluso ellos mismos se originan en la distribución de la hipótesis.
El de parada problema de hecho no es un problema de un individuo investigador ajuste de la configuración de N, pero que tenemos toda una comunidad de miles de investigadores, donde 1000 es mucho más que 1/alfa para el tradicional nivel de 0.05. La respuesta es actualmente propuesto para proporcionar las estadísticas de resumen (media, stddev, stderr - o correspondiente de la "no-paramétrico de versiones - mediana etc. como con boxplot) para facilitar el meta-análisis, y presentar los resultados combinados de todos los experimentos si ellos han alcanzado un determinado nivel alfa o no.
Estrechamente relacionado es el de múltiples pruebas problema, que es tan lleno de dificultades, y en donde los experimentos se mantienen oversimplistic en nombre de la preservación de la potencia, mientras que overcomplex metodologías que se proponen para analizar los resultados.
Creo que no puede ser un libro de texto capítulo que trata con este definitivamente sin embargo, como aún tenemos poca idea de lo que estamos haciendo...
Por el momento, el mejor enfoque es probablemente continuar con el uso de las tradicionales estadísticas más adecuadas para el problema, combinado con la visualización de las estadísticas de resumen - el efecto y el error estándar y N, siendo el más importante. El uso de intervalos de confianza es básicamente equivalente a la correspondiente prueba de T, pero permite comparar los nuevos resultados con los publicados más meaningully, así como permitir a un ethos fomentar la capacidad de reproducción y publicación de reproducir los experimentos y meta-análisis.
En términos de la Información Teórica o Bayesiano enfoques, se utilizan diferentes herramientas y parten de supuestos diferentes, pero aún no tengo todas las respuestas, y en la final se enfrentan los mismos problemas, o peor, porque la inferencia Bayesiana pasos atrás de una respuesta definitiva y sólo aduce pruebas relativas supone o se ausente de los priores.
La máquina de Aprendizaje en el final también tiene resultados que necesita considerar la significación - a menudo con CIs o T-Test, a menudo con gráficos, esperemos que el emparejamiento en lugar de sólo la comparación, y utilizando adecuadamente compensado versiones cuando las distribuciones no coinciden. También tiene sus controversias acerca de arranque y de validación cruzada, y el sesgo y la varianza. Lo peor de todo, tiene la propensión a generar y probar infinidad de modelos alternativos sólo mediante la parametrización a fondo todos los algoritmos en una de las muchas cajas de herramientas, aplicadas a los conjuntos de datos cuidadosamente archivados para permitir desenfrenada de múltiples pruebas. Peor aún es todavía en la edad oscura, el uso de la precisión, o, peor aún, F-medida de la evaluación - en lugar de oportunidad-métodos correctos.
He leído decenas de artículos sobre estos temas, pero no han podido encontrar nada totalmente convincente - a excepción de la negativa de la encuesta o de meta-análisis de los papeles que parecen indicar que la mayoría de los investigadores no manejar e interpretar las estadísticas correctamente con respecto a cualquier "estándar", viejo o nuevo. El poder, de múltiples pruebas, el tamaño y la detención temprana, la interpretación de los errores estándar y los intervalos de confianza, ... estos son sólo algunos de los temas.
Por favor, me tiro abajo - me gustaría estar equivocado! En mi opinión, hay un montón de paja, pero no hemos encontrado el bebé todavía! En esta etapa, ninguno de los puntos de vista extremos o nombre de la marca de enfoques parece prometedor como ser la respuesta, y los que quieren echar a todo lo demás probablemente ha perdido el bebé.