32 votos

¿Es posible cambiar una hipótesis para que coincida con los datos observados (alias expedición de pesca) y evitar un aumento de los errores de Tipo I?

Es bien sabido que los investigadores deben pasar el tiempo observando y explorando los datos existentes y la investigación antes de formar una hipótesis y luego recoger datos para probar esa hipótesis (refiriéndose a la prueba de significación de la hipótesis nula). Muchos libros de estadística básica advierten que las hipótesis deben ser formadas a priori y no puede modificarse después de la recopilación de datos, de lo contrario la metodología queda invalidada.

Entiendo que una de las razones por las que cambiar una hipótesis para que encaje con los datos observados es problemático es por la mayor posibilidad de cometer un error de tipo I debido a datos espurios, pero mi pregunta es: es que el sólo o hay otros problemas fundamentales al ir a una expedición de pesca?

Como una pregunta extra, ¿hay formas de ir a las expediciones de pesca sin exponerse a las posibles trampas? Por ejemplo, si tiene suficientes datos, ¿podría generar hipótesis a partir de la mitad de los datos y luego utilizar la otra mitad para probarlas?

actualización

Agradezco el interés de mi pregunta, pero las respuestas y comentarios están dirigidos principalmente a lo que pensé que había establecido como información de fondo. Estoy interesado en saber si hay otros las razones por las que es malo más allá de la mayor posibilidad de resultados espurios y si hay formas, como dividir los datos primero, de cambiar una hipótesis post hoc pero evitando el aumento de los errores de tipo I.

He actualizado el título para que refleje la idea central de mi pregunta.

¡Gracias, y perdón por la confusión!

54voto

Zizzencs Puntos 1358

Ciertamente, puedes ir a pescar, siempre y cuando admitir que es una expedición de pesca y tratarla como tal. Un nombre más bonito para esto es "análisis exploratorio de datos".

Una analogía mejor podría ser disparar a un blanco:

Puedes disparar a una diana y celebrar si das en el blanco.

Puedes disparar sin un objetivo para probar las propiedades de tu arma.

Pero es una trampa disparar a una pared y luego pintar una diana alrededor del agujero de la bala.

Una forma de evitar algunos de los problemas con esto es hacer la exploración en un conjunto de datos de entrenamiento y luego probarlo en un conjunto de datos de "prueba" separado.

25voto

Floris Puntos 448

El problema de las expediciones de pesca es el siguiente: si se prueban suficientes hipótesis, una de ellas se confirmará con un valor p bajo. Permítanme dar un ejemplo concreto.

Imagine que está realizando un estudio epidemiológico. Ha encontrado 1.000 pacientes que padecen una enfermedad rara. Quiere saber qué tienen en común. Así que empieza a hacer pruebas: quiere ver si una característica concreta está sobrerrepresentada en esta muestra. Al principio, se comprueba el sexo, la raza, ciertos antecedentes familiares pertinentes (el padre murió de una enfermedad cardíaca antes de los 50 años, ), pero finalmente, al tener problemas para encontrar algo que "se pegue", se empieza a añadir todo tipo de factores que simplemente puede se relacionan con la enfermedad:

  • es vegetariano

  • ha viajado a Canadá

  • terminó la universidad

  • está casado

  • tiene hijos

  • tiene gatos

  • tiene perros

  • bebe al menos 5 vasos de vino tinto a la semana

Ahora la cosa es así. Si selecciono suficientes hipótesis "aleatorias", empieza a ser probable que al menos una de ellas dé lugar a un valor p inferior a 0,05, porque la esencia misma del valor p es "la probabilidad de equivocarse al rechazar la hipótesis nula cuando no hay efecto". Dicho de otro modo por término medio, por cada 20 hipótesis falsas que pruebe, una de ellas le dará una p de < 0,05 .

Esto está TAN bien resumido en la viñeta de XKCD http://xkcd.com/882/ :

enter image description here

La tragedia es que aunque un autor individual no realice 20 pruebas de hipótesis diferentes en una muestra para buscar la significación, puede haber otros 19 autores haciendo lo mismo; y el que "encuentra" una correlación tiene ahora un artículo interesante que escribir, y que probablemente sea aceptado para su publicación

Esto conduce a una desafortunada tendencia a los hallazgos irreproducibles. La mejor manera de evitarlo como autor individual es poner el listón más alto. En lugar de probar el factor individual, pregúntese "si pruebo N hipótesis, ¿cuál es la probabilidad de obtener al menos un falso positivo? Cuando realmente esté probando "hipótesis de pesca" podría pensar en hacer un Corrección de Bonferroni para evitarlo, pero a menudo la gente no lo hace.

Hubo algunas ponencias interesantes del Dr. Ioannides - perfilado en el Atlantic Monthly específicamente sobre este tema.

Ver también esta pregunta anterior con varias respuestas perspicaces.

actualización para responder mejor a todos los aspectos de su pregunta:

Si teme estar "pescando", pero realmente no sabe qué hipótesis formular, podría dividir sus datos en secciones de "exploración", "replicación" y "confirmación". En principio, esto debería limitar su exposición a los riesgos señalados anteriormente: si tiene un valor p de 0,05 en los datos de exploración y obtiene un valor similar en los datos de replicación y confirmación, su riesgo de equivocarse disminuye. Un buen ejemplo de "hacerlo bien" lo encontramos en el British Medical Journal (una publicación muy respetada con un factor de impacto de más de 17)

Exploración y confirmación de los factores asociados al embarazo sin complicaciones en mujeres nulíparas: estudio de cohorte prospectivo, Chappell y otros

He aquí el párrafo correspondiente:

Dividimos el conjunto de datos de 5628 mujeres en tres partes: un conjunto de datos de exploración conjunto de datos de exploración de dos tercios de las mujeres de Australia y Nueva Zelanda elegidos al azar (n=2129); un conjunto de datos de replicación local del tercio restante de mujeres de Australia y Nueva Zelanda (n=1067); y un conjunto de datos de confirmación externo, geográficamente distinto, de 2.432 mujeres europeas del Reino Unido y la República de Irlanda.

Retrocediendo un poco en la literatura, hay un buen artículo de Altman et al titulado "Prognosis and prognostic research: validating a prognostic model" que profundiza mucho más y sugiere formas de asegurarse de no caer en este error. Los "puntos principales" del artículo:

Los modelos no validados no deben utilizarse en la práctica clínica Al validar un modelo pronóstico, se debe evaluar la calibración y la discriminación La validación debe realizarse con datos diferentes a los utilizados para desarrollar el modelo, preferiblemente de pacientes de otros centros Los modelos pueden no funcionar bien en la práctica por deficiencias en los métodos de desarrollo o porque la nueva muestra es demasiado diferente de la original

Obsérvese, en particular, la sugerencia de que se haga una validación (parafraseo) con datos de otras fuentes - Es decir, no basta con dividir los datos arbitrariamente en subconjuntos, sino que hay que hacer lo posible para demostrar que el "aprendizaje" de un conjunto de experimentos puede aplicarse a los datos de otro conjunto de experimentos. Es un listón más alto, pero reduce aún más el riesgo de que un sesgo sistemático en su configuración cree "resultados" que no puedan verificarse de forma independiente.

Es un tema muy importante, ¡gracias por hacer la pregunta!

5voto

Sean Hanley Puntos 2428

La pregunta es si hay otros problemas que la inflación de errores de tipo I que conllevan las expediciones de pesca.

Un error de tipo I se produce cuando se rechaza la hipótesis nula (normalmente de ausencia de efecto) cuando es verdadera. Una generalización, relacionada con los errores de tipo I pero no exactamente igual, es que incluso cuando la nula es falsa (es decir, hay algún efecto) las expediciones de pesca llevarán a sobreestimar el tamaño (y por tanto la importancia) de los efectos encontrados. En otras palabras, cuando no se mira una variable en particular, sino que se mira todo y se centra la atención en el efecto más grande, los efectos que se encuentran pueden no ser $0$ pero están sesgados para parecer más grandes de lo que son. Un ejemplo de esto se puede ver en mi respuesta a: Algoritmos de selección automática de modelos .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X