14 votos

Cómo justificar objetivamente elegido de falsos positivos/falsos-negativos en las tasas de error y subyacentes de la relación costo?

Contexto

Un grupo de científicos sociales y estadísticos (Benjamin et al., 2017) han sugerido recientemente que la típica tasa de falsos positivos ($\alpha$ = .05) que se utiliza como umbral para determinar la "significación estadística" debe ajustarse a una más conservadora umbral ($\alpha$ = .005). A la competencia de otro grupo de científicos sociales y estadísticos (Lakens et al., 2018) han respondido, argumentando en contra de la utilización de este, o cualquier otro--seleccionados arbitrariamente umbral. La siguiente es una cita de Lakens et al. (p. 16) que ayuda a ejemplificar el tema de mi pregunta:

Idealmente, el nivel alfa es determinado por la comparación de costos y beneficios en contra de una función de utilidad el uso de la teoría de la decisión. Este análisis de costo-beneficio (y por lo tanto el nivel alfa)difiere cuando el análisis de grandes conjuntos de datos existentes en comparación con la recogida de datos de disco duro-a-conseguir muestras. La ciencia es diversa, y es que hasta los científicos para justificar el nivel alfa ellos deciden usar. ... La investigación debe estar guiada por los principios de rigor científico, no por la heurística y arbitraria manta umbrales.

Pregunta

Me pregunto cómo se podría ir sobre objetiva que justifique el elegido alfa, como Lakens et al. sugieren que, en la mayoría de las ciencias sociales de los contextos (es decir, fuera de seleccionar los casos donde se tiene una mayor calidad de hormigón, como fines de lucro, para optimizar)?

Tras la difusión de Lakens et al., He empezado a ver las calculadoras en línea de circulación para ayudar a los investigadores a tomar esta decisión. Cuando se usan los investigadores necesitan para especificar un "índice de costos" de falsos positivos y falsos negativos errores. Sin embargo, como esta calculadora que aquí se sugiere, la determinación de un índice de costos pueden involucrar una gran cantidad de cuantitativa del valor-trabajo:

Mientras que algunos de error costos son fáciles de cantidad en términos monetarios (costos directos), otros son difíciles de poner un dolar importe (costes indirectos). ...A pesar de ser difícil de cuantificar, se debe hacer un esfuerzo para poner un número para ellos.

Por ejemplo, aunque Lakens et al. sugieren el estudio de duro-a-alcanzan muestras como un factor que se podría considerar en la justificación de alfa, parece que uno se deja adivinar cómo de difícil acceso que muestra es, y por lo tanto, cómo ajustar la selección de alfa en consecuencia. Como otro ejemplo, sería difícil para mí para cuantificar el costo de la publicación de un falso positivo, en términos de cuánto tiempo/dinero que otros, posteriormente, se comprometen a proseguir las investigaciones basa en el error de inferencia.

Si la determinación de este índice de costos es en gran medida una cuestión subjetiva mejores-supongo-hacer, yo me quedo preguntando si estas decisiones pueden alguna vez (de nuevo, fuera de la optimización de algo como el lucro), ser "justificados". Es decir, en una forma que existe fuera de los supuestos acerca de muestreo, los trade-offs, impacto, etc.,? De esta manera, la determinación de un costo proporción de falsos positivos o falsos negativos errores parece, a mí, a ser algo parecido a la selección previa en la inferencia Bayesiana--una decisión que puede ser algo subjetivo, los resultados de la influencia, y por lo tanto debate, aunque no estoy seguro de que razonables de comparación.

Resumen

Para hacer mi pregunta concreta:

  1. Puede falsos positivos o falsos negativos de las tasas y sus ratios de costes jamás pueda justificarse objetivamente en la mayoría de las ciencias sociales en contextos?
  2. Si es así, ¿cuáles son generalizables principios se podría seguir para justificar estos analítica de decisiones (y tal vez un ejemplo o dos de ellos en acción)
  3. Si no, es mi analogía del potencial de la subjetividad en la elección de los coeficientes de costes--como ser similar a la Bayesiana antes de la selección de un razonable?

Referencias

Benjamin, D. J., Berger, J., Johannesson, M., Nosek, B. A., Wagenmakers, E.,... Johnson, V. (2017, De 22 De Julio). Redefinir la significación estadística. Recuperado de psyarxiv.com/mky9j

Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A.,... Zwaan, R. A. (2018, El 15 De Enero). Justificar Su Alfa. Recuperado de psyarxiv.com/9s3y6

2voto

Mark Hoffarth Puntos 11

(también publicado en twitter, pero la re-publicado aquí) Mi intento de respuesta: yo no creo que una justificación puede ser "puramente" objetivo, pero puede estar basada en criterios que son defendibles racional/empírica. Creo que RSS es un ejemplo de una forma en la que podría justificar p <.005 para ciertos tipos de investigación, pero también creo que hay otras circunstancias en las que diferentes alfa sería más óptimo que <.005 (superior o inferior) en función de lo que alfa es factible y cuál es el propósito del estudio. Así, por ejemplo, si usted tiene 5.000 participantes y el más pequeño el tamaño del efecto es de interés .10, puede que desee utilizar p <.001 y el 90% de la potencia (los números de todos componen)En contraste, supongamos que tienes un pequeño experimento inicial de "prueba de concepto" para la línea de investigación. Usted puede tener N = 100, p < .10, el 90% de la potencia, a continuación, llegar a conclusiones basadas en la interna del meta-análisis de los 4 experimentos con p < .005.

2voto

Delta Puntos 2544

He estado pensando acerca de la misma cuestión mucho últimamente, y me imagino que muchos otros en la psicología son así.

En primer lugar, cada una de tus preguntas se refiere a si la elección se hace de manera objetiva versus subjetivamente, pero (como otros han señalado) aún no has explicado lo que sería (en su opinión) un objetivo versus opción subjetiva.

Usted puede estar interesado en la Gelman Y Hennig 2015 de papel que se desempaqueta una variedad de valores envuelto en el uso común de la "objetiva" y "subjetiva" de las etiquetas en la ciencia. En su formulación, "objetivo" se refiere a los valores de la transparencia, el consenso, la imparcialidad, y la correspondencia a la realidad observable, mientras que "subjetivo" se refiere a los valores de las múltiples perspectivas y el contexto de la dependencia.

Relacionadas a la Pregunta 3, en la vista Bayesiano, la probabilidad se define como la cuantificación de la incertidumbre sobre el mundo. Por lo que entiendo, hay una tensión evidente entre "subjetivista Bayesiano" (probabilidades de reflejar los estados individuales de la creencia) y "objetivista Bayesiano" escuelas de pensamiento (las probabilidades de reflejar el consenso de plausibilidad). Dentro de la objetivista de la escuela, hay un fuerte énfasis en la justificación de la distribución previa (y el modelo más general) en una manera transparente, de forma que concuerde con el consenso y que puede ser revisado, pero la elección del modelo es, sin duda contexto-dependiente (es decir, depende del estado de consenso conocimiento para un problema en particular).

En el frecuentista de la concepción, las probabilidades de reflejar el número de veces que un evento ocurra dado infinito independiente de las replicaciones. Dentro de la Neyman-Pearson marco, uno establece una precisión de la hipótesis alternativa y una precisa alfa, acepta el preciso null o el preciso de la alternativa (a la población el efecto es exactamente igual a la estipulada) sobre la base de los datos y, a continuación, informa el tiempo-frecuencia de ejecución de hacerlo en el error.

Dentro de este marco, rara vez tenemos un punto preciso de la estimación de la población el tamaño del efecto, sino un rango de valores plausibles. Por lo tanto, condicionada a un determinado alpha, no tenemos una estimación precisa de la Tipo 2, la tasa de error, sino más bien un rango de posibles Tipo 2, las tasas de error. Del mismo modo, yo estaría de acuerdo con tu punto general, que normalmente no tienen un sentido preciso de cuáles son los costos y beneficios de un error de Tipo 1 o de un error de Tipo 2 va a ser en realidad. Lo que significa que a menudo se enfrentan con una situación en la que tenemos muy incompleta la información acerca de lo que nuestra hipótesis debe ser, en primer lugar, y aún menos información acerca de lo que sería la relación de los costos y beneficios de aceptar vs rechazar esta hipótesis.

a sus preguntas:

  1. Puede falsos positivos o falsos negativos de las tasas y sus ratios de costes jamás pueda justificarse objetivamente en la mayoría de las ciencias sociales en contextos?

Yo creo que sí, en que la justificación puede ser transparente, puede que concuerden con el consenso, puede ser imparcial, y puede corresponder a la realidad (en la medida en que estamos utilizando la mejor información disponible que tenemos acerca de los costos y beneficios).

Sin embargo, creo que esas justificaciones son también subjetiva, en la que puede haber múltiples perspectivas válidas acerca de cómo establecer alfa para un problema dado, y en que lo que constituye una adecuada alfa pueden ser significativamente dependiente del contexto.

Por ejemplo, en los últimos años, ha quedado claro que muchos de los efectos en la literatura reflejan el Tipo de M o S errores. También pueden reflejar el Tipo 1 de errores, en la medida en que un estudio de replicación es capaz de proporcionar evidencia para el nula de exactamente cero efecto.

Relacionado con esta observación, hay un consenso emergente de que el p-valor umbral para afirmar con certeza debe mantenerse el mismo o más estrictas (es decir, nadie está discutiendo por una manta aumento de la alfa para .10 o .20). Del mismo modo, existe un consenso emergente de que los valores de p no debe ser utilizado como un criterio para la publicación (por ejemplo, la Registrada en el formato de Informe).

Para mí, esto refleja una especie de "objetivo" de la fuente de la información - es decir, para mi la lectura hay un consenso creciente de que las reclamaciones falsas son costosos para el campo (incluso si no podemos poner una cantidad en dólares en estos costos). A mi lectura, no existe un claro consenso de que no cumplir con un p-valor de umbral es un enorme costo para el campo. Si hay costos, que pueden ser mitigados si no cumplir con un p-valor umbral de no impacto si la estimación se hace en un artículo publicado.

  1. Si es así, ¿cuáles son generalizables principios se podría seguir para justificar estos analítica de decisiones (y tal vez un ejemplo o dos de ellos en acción)

No estoy seguro, pero me inclino hacia algún tipo de principio de que las decisiones deben ser tomadas sobre la base de la transparencia (local o global) el consenso de los juicios acerca de los costos y beneficios de los diferentes tipos de analítica de decisiones en un contexto particular, incluso en la cara de deplorablemente información incompleta acerca de lo que estos costos y beneficios que podría ser.

  1. Si no, es mi analogía del potencial de la subjetividad en la elección de los coeficientes de costes--como ser similar a la Bayesiana antes de la selección de un razonable?

Sí, a través de frecuentista y Bayesiana de las tradiciones, hay espacio para la subjetividad (es decir, las múltiples perspectivas y el contexto de la dependencia), así como la objetividad (es decir, la transparencia, el consenso, la imparcialidad, y la correspondencia a la realidad observable) en muchos aspectos diferentes de un modelo estadístico y la forma de usar ese modelo (el elegido antes, la selección de la probabilidad, la selección de los umbrales de decisión, etc.).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X