16 votos

Opcional reglas de detención no en los libros de texto

Reglas de detención afectan a la relación entre los valores de P y las tasas de error asociado con la toma de decisiones. Un reciente trabajo de Simmons et al. 2011 acuña el término investigador grados de libertad para describir un conjunto de comportamientos que se consideran para ser el responsable de muchos de los informes en la literatura psicológica que se han encontrado para no ser reproducibles.

De esos comportamientos, opcional reglas de detención o no declarados provisional de análisis son lo que me interesa actualmente. Puedo describir su efecto en las tasas de error a mis alumnos, pero no parecen ser descrito en los libros de texto que mis estudiantes el uso (o no uso!). En la principal librería en mi universidad hay catorce estadísticas de los libros de texto dirigidos a nivel introductorio los estudiantes en diversas disciplinas tales como las ciencias biológicas, los negocios, la ingeniería, etc. Sólo uno de esos textos contiene un índice de elemento "secuencial de pruebas' y ninguno tuvo un índice del elemento de 'detener la regla'.

Hay un nivel introductorio de estadística de libros de texto que explica el problema de opcional reglas de detención?

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). Falso-la Psicología Positiva: no divulgada de la Flexibilidad en la Recolección y Análisis de Datos Permite Presentar Algo tan Importante. La Ciencia Psicológica, 22(11), 1359-1366. doi:10.1177/0956797611417632

2voto

Heather Puntos 21

Usted no puede tener una parada de la regla sin tener alguna idea de su distribución y su tamaño del efecto - que no sabes a priori.

También sí, tenemos que centrarnos en el tamaño del efecto - y nunca ha sido considerado como correcto considerar sólo los valores de p, y por supuesto no deberíamos estar mostrando tablas o gráficos que muestran los valores de p o F-valores en lugar de tamaño del efecto.

Hay problemas con la tradicional Hipótesis Estadística la Inferencia de las Pruebas (que dice Cohen es digno de su acrónimo, y Fisher y Pearson tanto que la vuelta en las tumbas si vieron todo lo que se hace en sus opusieron violentamente nombres de hoy).

Para determinar N, usted necesita tener ya determinado un objetivo de importancia y el poder de umbral, así como de hacer un montón de suposiciones acerca de la distribución, y, en particular, también es necesario tener determinado el tamaño del efecto que se desea establecer. Indolering es exactamente lo que este debe ser el punto de partida - ¿a partir de qué tamaño de efecto sería rentable!

La "Nueva" Estadísticas es la defensa de mostrar los tamaños del efecto (como asociado diferencia cuando proceda), junto con la correspondiente desviación estándar o la varianza (porque necesitamos entender la distribución), y la desviación estándar o intervalos de confianza (pero la segunda ya es el bloqueo en un p-valor y una decisión acerca de si usted es la predicción de una dirección o una de cada apuesta). Pero estableciendo un mínimo efecto de determinado signo con una predicción científica, hace que esta claro que aunque el pre-científico predeterminado es hacer la prueba y el error y buscar las diferencias. Pero de nuevo se han hecho conjeturas acerca de la normalidad si ir por este camino.

Otro enfoque es utilizar el cuadro de parcelas como un enfoque no paramétrico, pero las convenciones acerca de los bigotes y los valores extremos varían ampliamente e incluso ellos mismos se originan en la distribución de la hipótesis.

El de parada problema de hecho no es un problema de un individuo investigador ajuste de la configuración de N, pero que tenemos toda una comunidad de miles de investigadores, donde 1000 es mucho más que 1/alfa para el tradicional nivel de 0.05. La respuesta es actualmente propuesto para proporcionar las estadísticas de resumen (media, stddev, stderr - o correspondiente de la "no-paramétrico de versiones - mediana etc. como con boxplot) para facilitar el meta-análisis, y presentar los resultados combinados de todos los experimentos si ellos han alcanzado un determinado nivel alfa o no.

Estrechamente relacionado es el de múltiples pruebas problema, que es tan lleno de dificultades, y en donde los experimentos se mantienen oversimplistic en nombre de la preservación de la potencia, mientras que overcomplex metodologías que se proponen para analizar los resultados.

Creo que no puede ser un libro de texto capítulo que trata con este definitivamente sin embargo, como aún tenemos poca idea de lo que estamos haciendo...

Por el momento, el mejor enfoque es probablemente continuar con el uso de las tradicionales estadísticas más adecuadas para el problema, combinado con la visualización de las estadísticas de resumen - el efecto y el error estándar y N, siendo el más importante. El uso de intervalos de confianza es básicamente equivalente a la correspondiente prueba de T, pero permite comparar los nuevos resultados con los publicados más meaningully, así como permitir a un ethos fomentar la capacidad de reproducción y publicación de reproducir los experimentos y meta-análisis.

En términos de la Información Teórica o Bayesiano enfoques, se utilizan diferentes herramientas y parten de supuestos diferentes, pero aún no tengo todas las respuestas, y en la final se enfrentan los mismos problemas, o peor, porque la inferencia Bayesiana pasos atrás de una respuesta definitiva y sólo aduce pruebas relativas supone o se ausente de los priores.

La máquina de Aprendizaje en el final también tiene resultados que necesita considerar la significación - a menudo con CIs o T-Test, a menudo con gráficos, esperemos que el emparejamiento en lugar de sólo la comparación, y utilizando adecuadamente compensado versiones cuando las distribuciones no coinciden. También tiene sus controversias acerca de arranque y de validación cruzada, y el sesgo y la varianza. Lo peor de todo, tiene la propensión a generar y probar infinidad de modelos alternativos sólo mediante la parametrización a fondo todos los algoritmos en una de las muchas cajas de herramientas, aplicadas a los conjuntos de datos cuidadosamente archivados para permitir desenfrenada de múltiples pruebas. Peor aún es todavía en la edad oscura, el uso de la precisión, o, peor aún, F-medida de la evaluación - en lugar de oportunidad-métodos correctos.

He leído decenas de artículos sobre estos temas, pero no han podido encontrar nada totalmente convincente - a excepción de la negativa de la encuesta o de meta-análisis de los papeles que parecen indicar que la mayoría de los investigadores no manejar e interpretar las estadísticas correctamente con respecto a cualquier "estándar", viejo o nuevo. El poder, de múltiples pruebas, el tamaño y la detención temprana, la interpretación de los errores estándar y los intervalos de confianza, ... estos son sólo algunos de los temas.

Por favor, me tiro abajo - me gustaría estar equivocado! En mi opinión, hay un montón de paja, pero no hemos encontrado el bebé todavía! En esta etapa, ninguno de los puntos de vista extremos o nombre de la marca de enfoques parece prometedor como ser la respuesta, y los que quieren echar a todo lo demás probablemente ha perdido el bebé.

1voto

warren Puntos 177

No creo que el opcional "reglas de detención" es una técnica de plazo en lo que respecta a la parada óptima. Sin embargo, dudo que usted encontrará mucho debate en profundidad sobre el tema en la introducción a nivel de la psicología de las estadísticas de los libros de texto.

La cínica justificación de esto es que todas las ciencias sociales los estudiantes carecen de las habilidades matemáticas. La mejor respuesta, en mi humilde opinión, es que simple t-Tests no son apropiados para la mayoría de las ciencias sociales experimentos. Uno tiene que mirar el efecto de la fuerza y de la figura si que resuelve las diferencias entre los grupos. El anterior puede indicar que el último es posible , pero eso es todo lo que puede hacer.

Medidas de gasto en bienestar, la regulación estatal, y el proceso de urbanización han estadísticamente relaciones significativas con las medidas de comportamiento religioso. Sin embargo, sólo indicando el valor de p está enmarcado en el examen de una cuestión de todo o nada de relación causal. Consulte la siguiente:

enter image description here

Los resultados de tanto gasto en bienestar y la urbanización han estadísticamente significativos los valores de p, pero gasto en bienestar es mucho más fuertemente correlacionadas. Que gasto en bienestar, muestra una fuerte relación con otras medidas de la religiosidad (no religiosos de la tasa , así como la comodidad en la religión) para que la urbanización no alcanzar un valor de p < .10, lo que sugiere que la urbanización no impacto general de las creencias religiosas. Nota, sin embargo, que incluso el bienestar de los gastos no explica Irlanda o Filipinas, mostrando que algún otro efecto(s) son comparativamente más fuerte que el de gasto en bienestar.

Confiar en las "reglas de detención" puede dar lugar a falsos positivos, especialmente en los pequeños tamaños de muestra de la psicología. La psicología como un campo es en realidad por este tipo de estadística travesuras. Sin embargo, poniendo todo de nuestra fe en un arbitrario p-valor es bastante estúpido como para bien. Incluso si todos mandamos a nuestros tamaños de muestra y de las hipótesis declaraciones a un diario antes de realizar el experimento, aún tendríamos que ejecutar en los falsos positivos como la academia es colectivamente trolling para la significación estadística.

La cosa correcta de hacer no es dejar de minería de datos, lo que hay que hacer es describir los resultados en relación a su efecto. Las teorías son juzgados no sólo por la exactitud de sus predicciones, sino también por la utilidad de esas predicciones. No importa lo bueno que la metodología de la investigación, una droga que proporciona un 1% de mejora en los síntomas de un resfriado no vale la pena el costo de los paquetes dentro de una cápsula.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X