El problema de las expediciones de pesca es el siguiente: si se prueban suficientes hipótesis, una de ellas se confirmará con un valor p bajo. Permítanme dar un ejemplo concreto.
Imagine que está realizando un estudio epidemiológico. Ha encontrado 1.000 pacientes que padecen una enfermedad rara. Quiere saber qué tienen en común. Así que empieza a hacer pruebas: quiere ver si una característica concreta está sobrerrepresentada en esta muestra. Al principio, se comprueba el sexo, la raza, ciertos antecedentes familiares pertinentes (el padre murió de una enfermedad cardíaca antes de los 50 años, ), pero finalmente, al tener problemas para encontrar algo que "se pegue", se empieza a añadir todo tipo de factores que simplemente puede se relacionan con la enfermedad:
Ahora la cosa es así. Si selecciono suficientes hipótesis "aleatorias", empieza a ser probable que al menos una de ellas dé lugar a un valor p inferior a 0,05, porque la esencia misma del valor p es "la probabilidad de equivocarse al rechazar la hipótesis nula cuando no hay efecto". Dicho de otro modo por término medio, por cada 20 hipótesis falsas que pruebe, una de ellas le dará una p de < 0,05 .
Esto está TAN bien resumido en la viñeta de XKCD http://xkcd.com/882/ :
La tragedia es que aunque un autor individual no realice 20 pruebas de hipótesis diferentes en una muestra para buscar la significación, puede haber otros 19 autores haciendo lo mismo; y el que "encuentra" una correlación tiene ahora un artículo interesante que escribir, y que probablemente sea aceptado para su publicación
Esto conduce a una desafortunada tendencia a los hallazgos irreproducibles. La mejor manera de evitarlo como autor individual es poner el listón más alto. En lugar de probar el factor individual, pregúntese "si pruebo N hipótesis, ¿cuál es la probabilidad de obtener al menos un falso positivo? Cuando realmente esté probando "hipótesis de pesca" podría pensar en hacer un Corrección de Bonferroni para evitarlo, pero a menudo la gente no lo hace.
Hubo algunas ponencias interesantes del Dr. Ioannides - perfilado en el Atlantic Monthly específicamente sobre este tema.
Ver también esta pregunta anterior con varias respuestas perspicaces.
actualización para responder mejor a todos los aspectos de su pregunta:
Si teme estar "pescando", pero realmente no sabe qué hipótesis formular, podría dividir sus datos en secciones de "exploración", "replicación" y "confirmación". En principio, esto debería limitar su exposición a los riesgos señalados anteriormente: si tiene un valor p de 0,05 en los datos de exploración y obtiene un valor similar en los datos de replicación y confirmación, su riesgo de equivocarse disminuye. Un buen ejemplo de "hacerlo bien" lo encontramos en el British Medical Journal (una publicación muy respetada con un factor de impacto de más de 17)
Exploración y confirmación de los factores asociados al embarazo sin complicaciones en mujeres nulíparas: estudio de cohorte prospectivo, Chappell y otros
He aquí el párrafo correspondiente:
Dividimos el conjunto de datos de 5628 mujeres en tres partes: un conjunto de datos de exploración conjunto de datos de exploración de dos tercios de las mujeres de Australia y Nueva Zelanda elegidos al azar (n=2129); un conjunto de datos de replicación local del tercio restante de mujeres de Australia y Nueva Zelanda (n=1067); y un conjunto de datos de confirmación externo, geográficamente distinto, de 2.432 mujeres europeas del Reino Unido y la República de Irlanda.
Retrocediendo un poco en la literatura, hay un buen artículo de Altman et al titulado "Prognosis and prognostic research: validating a prognostic model" que profundiza mucho más y sugiere formas de asegurarse de no caer en este error. Los "puntos principales" del artículo:
Los modelos no validados no deben utilizarse en la práctica clínica Al validar un modelo pronóstico, se debe evaluar la calibración y la discriminación La validación debe realizarse con datos diferentes a los utilizados para desarrollar el modelo, preferiblemente de pacientes de otros centros Los modelos pueden no funcionar bien en la práctica por deficiencias en los métodos de desarrollo o porque la nueva muestra es demasiado diferente de la original
Obsérvese, en particular, la sugerencia de que se haga una validación (parafraseo) con datos de otras fuentes - Es decir, no basta con dividir los datos arbitrariamente en subconjuntos, sino que hay que hacer lo posible para demostrar que el "aprendizaje" de un conjunto de experimentos puede aplicarse a los datos de otro conjunto de experimentos. Es un listón más alto, pero reduce aún más el riesgo de que un sesgo sistemático en su configuración cree "resultados" que no puedan verificarse de forma independiente.
Es un tema muy importante, ¡gracias por hacer la pregunta!