64 votos

Pruebas de dos colas... Me ' m no convencida. ¿Lo que ' s el punto?

El siguiente extracto es de la entrada, ¿cuáles son las diferencias entre una cola y de dos colas pruebas?, en la UCLA, las estadísticas de ayuda del sitio.

... considerar las consecuencias de la falta de un efecto en la otra dirección. Imagínese que usted ha desarrollado un nuevo medicamento que usted cree que es una mejora de más de un medicamento existente. Desea maximizar su capacidad para detectar la mejora, por lo que opta por una cola de prueba. Al hacerlo, usted no prueba la posibilidad de que el nuevo medicamento es menos eficaz que el medicamento existente.

Después de aprender los fundamentos absolutos de la prueba de hipótesis y llegar a la parte sobre uno vs dos colas pruebas... entiendo las matemáticas básicas y el aumento de la capacidad de detección de una cola de pruebas, etc... Pero yo simplemente no puede envolver alrededor de mi cabeza alrededor de una cosa... ¿Cuál es el punto? Estoy realmente no entiendo por qué usted debe dividir su alfa entre los dos extremos, cuando el es el ejemplo de resultado sólo puede ser en uno o el otro, o ninguno.

Tome el ejemplo del texto citado más arriba. ¿Cómo puede "fallar a prueba" por un resultado en la dirección opuesta? Tienes tu la media de la muestra. Usted tiene su población. La Simple aritmética indica que es superior. Lo que hay que probar o no probar, en la dirección opuesta? ¿Qué lo detiene empezando desde cero con la hipótesis contraria si se ve claramente que en la media de la muestra es de lejos en la otra dirección?

Otra cita de la misma página:

La elección de una prueba una cola después de ejecutar una prueba de dos colas que no se pudo rechazar la hipótesis nula no es la adecuada, no importa cómo "cerrar" para importante la prueba de dos colas fue.

Supongo que esto también se aplica a cambiar la polaridad de la prueba una cola. Pero ¿cómo es esto "amañadas" resultado menos válido que si simplemente había elegido la correcta prueba una cola en el primer lugar?

Claramente me estoy perdiendo una gran parte de la foto de aquí. Todo parece demasiado arbitrario. Que es, supongo, en el sentido de que lo que denota "estadísticamente significativo" - 95%, 99%, 99.9%... Es arbitrario, para empezar.

51voto

Isabella Ghement Puntos 457

Pensar de los datos como la punta del iceberg - todo lo que se puede ver por encima de la del agua es la punta del iceberg, pero en realidad usted está interesado en aprender algo sobre el iceberg completo.

Los estadísticos, los datos científicos y las personas que trabajan con datos tienen el cuidado de no dejar que lo que ven por encima de la línea de agua de la influencia y el sesgo de su evaluación de lo que se esconde debajo de la línea de agua. Por esta razón, en una prueba de hipótesis situación, tienden a formular sus hipótesis nula y alternativa antes que ver la punta del iceberg, basado en sus expectativas (o la falta del mismo) de lo que podría suceder si se pudiera ver el iceberg en su totalidad.

Mirando los datos para formular su hipótesis es una mala práctica y debe ser evitado - es como poner el carro delante del caballo. Recordar que los datos provienen de una sola muestra seleccionada (es de esperar que el uso de un mecanismo de selección aleatoria) de la población meta/universo de interés. La muestra tiene su propia idiosincrasia, que puede o no puede ser el reflejo de la subyacente de la población. ¿Por qué usted quiere que su hipótesis para reflejar una parte limitada de la población en lugar de la totalidad de la población?

Otra forma de pensar acerca de esto es que, cada vez que se seleccione una muestra de la población objetivo (mediante un mecanismo de selección aleatoria), la muestra será el rendimiento de datos diferentes. Si utiliza los datos (que no debe!!!) para guiar a su especificación de las hipótesis nula y alternativa, su hipótesis será por todo el mapa, fundamentalmente por las características propias de cada una de las muestras. Por supuesto, en la práctica sólo se dibuja una muestra, pero sería una muy inquietante pensamiento para saber que si alguien realiza el mismo estudio con una muestra diferente de la misma talla, tendrían que cambiar sus hipótesis para reflejar la realidad de su muestra.

Uno de mis profesores de la escuela de posgrado que se utiliza para tener un muy sabio dicho: "no Nos preocupamos de la muestra, excepto que nos dice algo acerca de la población". Queremos formular nuestra hipótesis para aprender algo acerca de la población objetivo, no se trata de una muestra que nos pasó a seleccionar de la población.

22voto

jsakaluk Puntos 544

Creo que al considerar su pregunta es de ayuda si tratas de mantener la meta/puntos de venta de contraste de hipótesis pruebas de significación (NHST) en la mente; es sólo un paradigma (aunque uno muy popular) para la inferencia estadística, y los demás tienen sus propios puntos fuertes y sus puntos (por ejemplo, véase aquí para una discusión de la NHST relativa a la inferencia Bayesiana). ¿Cuál es la gran ventaja de la NHST?: A largo plazo el control de errores. Si usted sigue las reglas de la NHST (y a veces eso es muy grande), entonces usted debe tener un buen sentido de cómo es probable que va a ser malo con las inferencias que se hacen, en el largo plazo.

Uno de los puntillosa reglas de la NHST es que, sin más alteración en el procedimiento de prueba, sólo para echar un vistazo a su prueba de interés. Los investigadores en la práctica a menudo se ignoran (o no son conscientes de) esta norma (ver Simmons et al., 2012), la realización de múltiples pruebas después de la adición de las ondas de datos, la comprobación de su $p$-valores después de la adición/eliminación de variables a sus modelos, etc. El problema con esto es que los investigadores rara vez son neutrales con respecto a los resultados de la NHST; ellos son conscientes de que los resultados significativos son más propensos a ser publicado que no son resultados significativos (por razones que son equivocada y legítimo; Rosenthal, 1979). Los investigadores están, por tanto, a menudo motivados para agregar datos/modificar modelos y/o seleccionar los valores atípicos y pruebas repetidas hasta que "descubrir" un efecto significativo (ver Juan et al., De 2011, una buena introducción).

Un intuitivo problema es creada por las prácticas anteriores, se describe muy bien en Dienes (2008): si los investigadores se mantenga el ajuste de su muestra/diseño/modelos hasta significación se logra, entonces su deseado a largo plazo de las tasas de error de los resultados falso-positivos (a menudo $\alpha =.05$) y de falsos resultados negativos (a menudo $\beta =.20$) de cada enfoque 1.0 y 0.0, respectivamente (es decir, siempre va a rechazar $H_0$, tanto cuando es falso y cuando es verdadera).

En el contexto de sus preguntas específicas, que utilizan los investigadores de dos colas pruebas por defecto cuando no quieren hacer especial de las predicciones con respecto a la dirección del efecto. Si está equivocado en su suposición, y ejecutar una prueba una cola en la dirección del efecto, sus $\alpha$ se infla. Si se miran las estadísticas descriptivas y ejecutar una prueba una cola basado en sus eyeballing de la tendencia, sus $\alpha$ se infla. Usted podría pensar que esto no es un gran problema, en la práctica, que el $p$-valores pierden sus significado, pero si ellos no conservan su significado, se plantea la pregunta de por qué usted está utilizando un enfoque a la inferencia que de prioridad a largo plazo de control de errores.

Por último (y como una cuestión de preferencia personal), yo sería menos problema si primero se realizó una prueba de dos colas, se encontró que no significativo, entonces hice la prueba una cola en la dirección de la primera prueba implícita, y resulta ser significativa si (y sólo si) se realiza un estricto confirmación de replicación de que el efecto en otra muestra, y publicó la replicación en el mismo papel. Análisis exploratorio de datos-con la tasa de errores inflar flexible de análisis de la práctica--está bien, siempre y cuando usted es capaz de replicar su efecto en una nueva muestra, sin que la misma analítica flexibilidad.

Referencias

Dienes, Z. (2008). La comprensión de la psicología como ciencia: Una introducción a la inferencia estadística. Palgrave Macmillan.

Juan, L. K. Loewenstein, G. Y Prelec, D. (2012). La medición de la prevalencia de las cuestionables prácticas de investigación con los incentivos para la búsqueda de la verdad. La ciencia psicológica, 23(5), 524-532.

Rosenthal, R. (1979). El cajón de archivo problema y la tolerancia de los resultados nulos. Psychological bulletin, 86(3), 638.

Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). Falso-la psicología positiva: no divulgada de la flexibilidad en la recolección y análisis de datos permite presentar algo tan importante. La ciencia psicológica, 22(11), 1359-1366.

10voto

alexs77 Puntos 36

Por desgracia, el principal ejemplo de desarrollo de un fármaco no es buena ya que no es lo que hacemos para el desarrollo de medicamentos. Utilizamos diferentes, normas más estrictas para detener el estudio, si las tendencias están en el lado de daño. Esto es para la seguridad de los pacientes y también porque la droga es raro por arte de magia de giro en la dirección de un significativo beneficio.

Así que ¿por qué hacer dos colas pruebas? (cuando en la mayoría de los casos tenemos algunos a priori de la noción de la dirección de los efectos que estamos tratando de modelo)

La hipótesis nula debe tener algún parecido con la creencia en el sentido de ser plausible, informada y justificada. En la mayoría de los casos, la gente acepta un "poco interesante resultado" es cuando hay 0 efecto, mientras que un negativo o un positivo efecto es de igual interés. Es muy difícil articular un compuesto hipótesis nula, por ejemplo, el caso de que sabemos que la estadística podría ser igual o menor que una cierta cantidad. Uno debe ser muy explícito acerca de una hipótesis nula de hacer sentido de sus hallazgos científicos. Vale la pena señalar que la forma en que se lleva a cabo un compuesto de prueba de hipótesis es que la estadística de la hipótesis nula asume que el más constante de valor dentro del rango de los datos observados. Así que si el efecto está en la dirección positiva como se esperaba, el valor nulo se toma como 0 de todos modos, y hemos debatido innecesariamente.

Una de dos colas prueba de cantidades para la realización de dos unilateral de pruebas de control para comparaciones múltiples! Los dos colas prueba de realidad es en parte valorados, porque termina siendo más conservador en el largo plazo. Cuando tenemos una buena creencia acerca de la dirección del efecto, los dos colas pruebas de rendimiento de los falsos positivos de la mitad de la frecuencia con muy poco efecto general en el poder.

En el caso de la evaluación de un tratamiento en un ensayo controlado aleatorio, si se trató de venderme una cara prueba, me gustaría parar a preguntar, "espera, ¿por qué hemos de creer que el tratamiento es realmente dañino? Hay evidencia para apoyar esto? Hay incluso equilibrio [una capacidad de demostrar un efecto beneficioso]?" La contradicción lógica detrás de la cara de llamadas de prueba a toda la investigación en cuestión. Si realmente no se sabe nada, cualquier valor distinto de 0 se considera de interés y las dos colas de la prueba no es sólo una buena idea, es necesaria.

8voto

SarahC Puntos 6

Una forma de abordarlo es olvidar temporalmente acerca de la prueba de hipótesis y pensar acerca de los intervalos de confianza en su lugar. Una cara pruebas corresponden a uno de los lados de los intervalos de confianza y de dos caras pruebas corresponden a dos caras de los intervalos de confianza.

Supongamos que queremos estimar la media de una población. Naturalmente, tomar una muestra y calcular la media de la muestra. No hay ninguna razón para tomar un punto de estimación en el valor de cara, así que usted exprese su respuesta en términos de un intervalo que se confía en que se contiene la verdadera media. ¿Qué tipo de intervalo de escoger? Una de dos caras intervalo es por lejos la opción más natural. En un solo lado intervalo sólo tiene sentido cuando simplemente no se preocupan por encontrar un límite superior o el límite inferior de la estimación (porque crees que tú ya sabes útil atado en una dirección). ¿Con qué frecuencia usted realmente que seguro acerca de la situación?

Tal vez el cambio de la pregunta a los intervalos de confianza no realmente de la uña hacia abajo, pero es metodológicamente coherente prefieren una cola pruebas, pero dos caras de intervalos de confianza.

4voto

Mohammadreza Puntos 1964

Después de aprender los fundamentos absolutos de la prueba de hipótesis y llegar a la parte sobre uno vs dos colas pruebas... entiendo que el basic las matemáticas y el aumento de la capacidad de detección de una cola de pruebas, etc... Pero yo simplemente no se puede envolver alrededor de mi cabeza alrededor de una cosa... ¿Cuál es el punto? Estoy realmente no entiendo por qué usted debe dividir su alfa entre los dos extremos, cuando el es el ejemplo de resultado sólo puede estar en uno o el otro, o ninguno.

El problema es que usted no sabe que la media de población. Nunca he encontrado un escenario real, que yo sepa la verdadera media de población.

Tome el ejemplo del texto citado más arriba. ¿Cómo podría usted posiblemente "no prueba" para un resultado en la dirección opuesta? Usted tiene su media de la muestra. Usted tiene su población. Simple la aritmética dice que es superior. Lo que hay que probar, o no para la prueba, en la dirección opuesta? ¿Qué lo detiene acaba de empezar desde el principio con la hipótesis contraria si se ve claramente que en la la media de la muestra es de lejos en la otra dirección?

He leído su párrafo varias veces, pero todavía no estoy seguro acerca de sus argumentos. ¿Quiere decir esto? Usted no para "probar" si los datos no de la tierra en su elegido regiones críticas.

Supongo que esto también se aplica a cambiar la polaridad de su prueba una cola. Pero ¿cómo es esto "amañadas" resultado menos válida que la de si usted simplemente había elegido la correcta prueba una cola en la primera lugar?

La cita es correcta porque hacking de un p-valor es inapropiado. ¿Cuánto sabemos acerca de p-hacking "en la naturaleza"? tiene más detalles.

Claramente me estoy perdiendo una gran parte de la foto de aquí. Todo parece demasiado arbitrario. Que es, supongo, en el sentido de que lo que denota "estadísticamente significativo" - 95%, 99%, 99.9%... Es arbitrario para comenzar con. Ayuda?

Es arbitrario. Es por eso que los datos científicos generalmente informe de la magnitud de la p-valor en sí misma (no sólo importante o insignificante), y también los efectos de tamaño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X