75 votos

Una psicología diario prohibidos los valores de p y los intervalos de confianza; es sabio de verdad para dejar de usarlos?

El 25 de febrero de 2015, el diario Básicos y Aplicados de la Psicología Social publicó un editorial prohibición $p$-valores y los intervalos de confianza de todos los futuros trabajos.

Específicamente, dicen (el formato y el énfasis son míos):

  • [...] antes de la publicación, los autores se tiene que quitar todos los vestigios de la NHSTP [hipótesis nula significación procedimiento de prueba] ($p$-valores, $t$-valores, $F$-los valores, las declaraciones acerca de los "grandes" diferencias o falta de ella, y así sucesivamente).

  • De forma análoga a cómo el NHSTP no proporciona la probabilidad de la hipótesis nula, la cual es necesaria para proporcionar un fuerte caso para rechazarla, intervalos de confianza no proporcionar un fuerte caso para concluir que la población parámetro de interés es probable que esté dentro de la indicada intervalo. Por lo tanto, los intervalos de confianza también están prohibidos de BASP.

  • [...] con respecto a los procedimientos Bayesianos, nos reservamos el derecho a realizar caso por caso los juicios, y por lo tanto Bayesiano procedimientos no son ni se requiere ni prohibió BASP.

  • [...] Cualquier inferencial procedimientos estadísticos se requiere? -- No [...] sin Embargo, BASP requerirá de un fuerte la estadística descriptiva, incluyendo los tamaños del efecto.

No dejemos de discutir los problemas y el uso indebido de $p$-valores aquí; ya hay un montón de excelentes discusiones sobre los CV que se puede encontrar mediante la navegación por el p-valor de la etiqueta. La crítica de la $p$-valores, a menudo va de la mano con un consejo para informar de los intervalos de confianza para los parámetros de interés. Por ejemplo, en esta muy bien argumentado respuesta @gung sugiere el informe de los tamaños del efecto con intervalos de confianza alrededor de ellos. Pero este diario prohibiciones de los intervalos de confianza también.

¿Cuáles son las ventajas y desventajas de este enfoque para la presentación de datos y resultados experimentales en contraposición al enfoque "tradicional" con $p$-valores, los intervalos de confianza, y una importante/insignificante dicotomía? La reacción a esta prohibición parece ser mayormente negativo; entonces, ¿cuáles son las desventajas? Asociación americana de Estadística ha publicado incluso un breve comentario desalentador en esta prohibición, diciendo que "esta política tiene sus propias consecuencias negativas". ¿Podrían estas consecuencias negativas?

O como @whuber sugerido para ponerlo, si este enfoque propugnado por lo general, como un paradigma de investigación cuantitativa? Y si no, ¿por qué no?

PS. Tenga en cuenta que mi pregunta no es acerca de la prohibición de sí mismo; se trata de la propuesta. No estoy preguntando acerca de frecuentista vs inferencia Bayesiana. La Editorial es bastante negativa acerca de los métodos Bayesianos demasiado; por lo que es, esencialmente, acerca del uso de las estadísticas de vs no el uso de las estadísticas en todo.


Otras discusiones: reddit, Gelman.

24voto

Jeff Bauer Puntos 236

La primera frase de la actual 2015 editorial a la que el OP enlaces, lee:

Los Básicos y Aplicados de la Psicología Social (BASP) 2014 Editorial *destacado* que la hipótesis nula pruebas de significación procedimiento (NHSTP) no es válido...

(el énfasis es mío)

En otras palabras, para los editores es ya un hecho científico comprobado que "la hipótesis nula pruebas de significación" no es válido, y el 2014 editorial sólo destacó por tanto, aunque la actual 2015 editorial sólo implementa este hecho.

El mal uso (incluso maliciosamente) de NHSTP de hecho es bien discutido y documentado. Y no es insólito en la historia humana, que "cosas prohibidas" porque se ha encontrado que después de todo está dicho y hecho, de apropiación indebida de más de poner a buen uso (pero no hemos de probar estadísticamente que?). Puede ser una "segunda mejor" solución, para cortar lo que en promedio (estadística inferencial) ha llegado a las pérdidas en lugar de ganancias, y así podemos predecir (estadística inferencial) que va a ser perjudicial también en el futuro.

Pero el celo que se manifiestan detrás de la redacción de la anterior primera frase, hace que este look -exactamente, como una fanática de enfoque en lugar de una sangre fría decisión de cortar la mano que tiende a robar en lugar de ofrecer. Si uno lee un año mayores editorial menciona en la cita anterior (DOI:10.1080/01973533.2014.865505), uno va a ver que esto es sólo parte de una re-acarreo de la Revista políticas por un nuevo Editor.

El desplazamiento hacia abajo de la editorial, que escribir

...Por el contrario, creemos que la p<.05 bar es demasiado fácil pasar y a veces sirve como excusa para bajar la calidad de la investigación.

Así que parece que su conclusión relacionada con su disciplina es que nula hipótesis son rechazadas "demasiado a menudo", y así presuntos hallazgos pueden adquirir espurias significación estadística. Este es no es el mismo argumento como el de "no válido" dictum en la primera frase.

Así que, para responder a la pregunta, es obvio que para los editores de la revista, su decisión no sólo de sabios, pero ya tarde en ser implementado: parecen pensar que pueden cortar a qué parte de la estadística se ha convertido nocivos, manteniendo el beneficio de las partes -que no parecen creer que hay algo aquí que necesita reemplazar con algo "equivalente".

Epistemológicamente hablando, esta es una instancia donde los estudiosos de una ciencia social parcialmente retrotraerse a partir de un intento de hacer que su disciplina más objetivo en sus métodos y resultados mediante el uso de métodos cuantitativos, porque han llegado a la conclusión (¿cómo?) que, en el final, el intento de crear "más mal que bien". Yo diría que este es un asunto muy importante, en principio, posible haber ocurrido, y que requeriría años de trabajo para demostrar que "más allá de duda razonable", y realmente ayudar a su disciplina. Pero apenas uno o dos de los editoriales y artículos publicados más probable (estadística inferencial) acaba de desatar una guerra civil.

La frase final de 2015, el editorial dice:

Esperamos y anticipamos que la prohibición de la NHSTP tendrá el efecto de el aumento de la calidad de los manuscritos presentados al liberar a los autores a partir de la anquilosada estructura de NHSTP pensamiento, eliminando una importante obstáculo para el pensamiento creativo. El NHSTP ha dominado la psicología durante décadas; esperamos que al instituir el primer NHSTP la prohibición, que demuestran que la psicología no necesita la muleta de la NHSTP, y que otras revistas de seguir el ejemplo.

21voto

dan90266 Puntos 609

Siento que la prohibición de las pruebas de hipótesis es una gran idea, excepto para unos pocos "existencia" de hipótesis, por ejemplo, probar la hipótesis nula de que no existe la percepción extra-sensorial, donde todo lo que uno tendría que demostrar que dispone de evidencia de que el ESP que existe es no-aleatoriedad. Pero creo que el diario perdido el punto de que el principal motor de los pobres de la investigación en psicología es el uso de un umbral de $P$-valores. Se ha demostrado en la psicología y en la mayoría de los otros campos que una buena cantidad de juegos va a llegar a $P < 0.05$. Esto incluye la hipótesis de la sustitución, la eliminación de las observaciones, y el subconjunto de datos. Es umbrales que deben ser prohibidos en primer lugar.

La prohibición de los intervalos de confianza también es por la borda, pero no por las razones que otros han dicho. Los intervalos de confianza son útiles sólo si se malinterpreta como intervalos de credibilidad Bayesianos (adecuados para la no-información de los priores). Pero todavía son útiles. El hecho de que su exacta interpretación frecuentista conduce a nada, pero la confusión que supone la necesidad de "salir de Dodge" y vaya Bayesiano o la probabilidad de la escuela. Pero útiles resultados pueden ser obtenidos por interpretación errónea de la buena vieja límites de confianza.

Es una lástima que los editores de la revista entendido mal la estadística Bayesiana y no saben de la existencia de pura probabilidad inferencia. Lo que están buscando fácilmente puede ser proporcionada por Bayesiano de las distribuciones posteriores utilizando un escéptico de los priores.

14voto

Gallomimia Puntos 89

Veo este enfoque como un intento de abordar la incapacidad de la psicología social a repetir muchos de los publicados anteriormente 'hallazgos significativos.'

Sus desventajas son:

  1. que no aborda muchos de los factores que conducen a efectos espurios. E. g.,

    • A) la Gente todavía puede dar un vistazo a sus datos y detener la ejecución de sus estudios cuando un tamaño del efecto les parece lo suficientemente grandes como para ser de interés.

    • B) Grandes efectos tamaños todavía parecen tener gran poder en retrospectiva evaluaciones de poder.

    • C) la Gente todavía peces interesantes y grandes efectos (pruebas de un montón de hipótesis en un experimento y, a continuación, informes de la que apareció) o

    • D) pretender que un inesperado y extraño efecto que se esperaba.

    No se hagan esfuerzos para abordar estas cuestiones en primer lugar?

  2. Como un campo en adelante se hará una revisión de los últimos hallazgos bastante horrible. No hay ninguna manera de evaluar cuantitativamente la credibilidad de los diferentes estudios. Si cada diario aplicado este enfoque, usted tendrá un montón de científicos sociales diciendo que no hay evidencia de X cuando no está totalmente claro cómo creíble X es y científicos discutiendo acerca de cómo interpretar la publicación de un efecto o discutir acerca de si es importante o vale la pena hablar. No es este el punto de tener stats? Para proporcionar de forma coherente para evaluar los números. En mi opinión, este nuevo enfoque podría causar un desastre si fue ampliamente implementado.

  3. Este cambio no alentar a los investigadores a presentar los resultados de los estudios con pequeños tamaños del efecto para que no se tratan en realidad el archivo-cajón efecto (o se van a publicar los resultados con la gran n, independientemente del tamaño del efecto?). Si hemos publicado los resultados del cuidadosamente diseñado estudios, entonces, aunque la credibilidad de los resultados de los estudios individuales puede ser incierto, meta-análisis y revisiones de los estudios que se suministra análisis estadístico hacer un trabajo mucho mejor en la identificación de la verdad.

7voto

zowens Puntos 1417

Me encontré con una cita maravillosa que casi aboga por el mismo punto, pero no del todo, ya que es un párrafo de apertura en un libro de texto que es principalmente acerca de frecuentista de estadística y pruebas de hipótesis.

Es ampliamente celebrada por los no estadísticos, como el autor, que si bien los experimentos de estadísticas no son necesarias. Tienen toda la razón. [...] El problema, claro, es que hacer el bien de los experimentos es difícil. La mayoría de las personas necesitan toda la ayuda posible para evitar hacer los tontos de los mismos por afirmar que su teoría favorita es corroborada por las observaciones que hacer nada de eso. Y la función principal de la sección de estadística que se ocupa de las pruebas de significación es evitar que la gente haciendo los tontos de los mismos. Desde este punto de vista, la función de las pruebas de significación es evitar que la gente la publicación de los experimentos, no para animarlos. Lo ideal, de hecho, las pruebas de significación nunca debe aparecer en la impresión, después de haber sido utilizado, en todo caso, en las etapas preliminares para detectar inadecuado de los experimentos, de modo que el final de los experimentos son tan claras que no hay justificación es necesario.

-- David Colquhoun, Conferencias sobre bioestadística, 1971

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X