54 votos

Un conjunto de datos más pequeño es mejor: Es esta declaración falsa en las estadísticas? Cómo refutar correctamente?

El Dr. Raoult, que promueve la Hidroxicloroquina, tiene unos muy intrigante declaración acerca de las estadísticas en el campo de la biomedicina:

Es ilógico, pero el más pequeño es el tamaño de la muestra de un ensayo clínico, el más significativo de sus resultados. Las diferencias en una muestra de 20 personas puede ser más significativo que en una muestra de 10.000 personas. Si necesitamos una muestra, hay un riesgo de equivocarse. Con 10.000 personas, cuando las diferencias son pequeñas, a veces no existen.

Es esta una declaración falsa en las estadísticas? Si es así, es por lo tanto también falso en el campo de la biomedicina? A partir de los cuales podemos refutar de manera adecuada, mediante un intervalo de confianza?

El Dr. Raoult promueve la Hidroxicloroquina como una cura para el Covid-19, gracias a un artículo acerca de los datos de los 24 pacientes. Sus afirmaciones se han repetido mucho, pero principalmente en los medios de comunicación, no en la prensa científica.

En el aprendizaje de máquina, el SciKit flujo de trabajo de los estados que antes de elegir cualquier modelo, se NECESITA un conjunto de datos con al menos 50 muestras, ya sea para una regresión simple, o de la más avanzada técnica de clustering, etc., es por eso que encontramos con esta declaración realmente intrigante.


EDIT: algunas de las respuestas a continuación realice el supuesto de que no se resultado de los prejuicios. Tienen que ver con el concepto de poder y el tamaño del efecto. Sin embargo parece que hay un sesgo en el Dr. Raoult datos. La más sorprendente es la eliminación de los datos por los muertos, por la razón de que no podía dar datos para toda la duración del estudio.

Mi pregunta sigue siendo, sin embargo se centró en el impacto de la utilización de un tamaño de muestra pequeño.

2 votos

Las respuestas suponen que no hay sesgo y hablan de potencia porque ahí entra el tamaño de la muestra. En sí mismo, un mayor tamaño de la muestra no resolverá el sesgo. Comparto tu escepticismo general sobre la postura de Raoult, pero esta afirmación en particular tiene cierto mérito. ¿Te interesan las estadísticas subyacentes y la pregunta que hiciste originalmente? ¿O sólo en encontrar alguna razón para descartar sus puntos de vista? Irónicamente, no estar dispuesto a considerar nada que no sea la confirmación de su intuición original es la definición misma de sesgo.

0 votos

@Gala Mi pregunta principal se refiere a la afirmación sobre las pruebas más pequeñas hecha por el Dr. Raoult. Me interesa la estadística subyacente. Como no he utilizado el concepto de potencia IIRC. Voy a editar la pregunta para una mejor redacción. Pero es importante para hilvanar los datos no debe ser sesgada por lo que voy a dejar la edición. ¿Qué piensa usted de eso?

3 votos

No estoy seguro de estar de acuerdo. Deberíamos esforzarnos por hacer preguntas específicas, no comentarios gratuitos. Puedes preguntar sobre el tamaño de la muestra en la investigación biomédica o sobre el sesgo frente a la precisión, pero no deberías hacer o soliviantar comentarios no relacionados porque sean críticos con un estudio que no te gusta. ¿Qué pensarías si alguien argumentara que es vital añadir un párrafo sobre la importancia del "juicio clínico" sobre la metodología o algo así?

57voto

mkt Puntos 688

Estoy de acuerdo con muchas de las otras respuestas aquí, pero creo que la declaración es aún peor de lo que hacen parecer.

La afirmación es una versión explícita de una afirmación implícita en muchos análisis chapuceros de pequeños conjuntos de datos. Éstos insinúan que, como han encontrado un resultado significativo en una muestra pequeña, el resultado que afirman debe ser real e importante porque es "más difícil" encontrar un efecto significativo en una muestra pequeña. Esta creencia es simplemente errónea, porque el error aleatorio en las muestras pequeñas significa que cualquier El resultado es menos fiable, tanto si el tamaño del efecto es grande como pequeño. Por tanto, es más probable que los efectos grandes y significativos sean de una magnitud incorrecta y, lo que es más importante, pueden estar en el dirección equivocada . Andrew Gelman se refiere a estos errores de forma útil como errores de "tipo S" (estimaciones cuya firmar es errónea) frente a los errores "tipo M" (estimaciones cuya magnitud está mal). Si combinamos esto con el efecto cajón de sastre (los resultados pequeños y no significativos no se publican, mientras que los grandes y significativos sí se publican), tenemos la mayor parte del camino hacia la crisis de la replicación y una gran pérdida de tiempo, esfuerzo y dinero.

Gracias a @Adrian por sacar a relucir una figura de Gelman que ilustra bien este punto:

enter image description here

Puede parecer un ejemplo extremo, pero el punto es totalmente relevante para el argumento de Raoult.

5 votos

Es probable que pronto se produzca una avalancha de publicaciones relacionadas con el COVID-19, por lo que me pregunto si el virus provocará un empeoramiento a corto plazo de la crisis de replicación.

0 votos

Se calculó que el estudio en cuestión tenía una potencia del 85%, lo que hace que los errores de tipo S sean muy, muy improbables. Los resultados de los estudios con poca potencia son mucho más propensos a tener errores de tipo S y de tipo M, pero siempre que un conjunto de datos pequeño tenga suficiente potencia, sigue valiendo la pena.

0 votos

@NuclearWang Mis comentarios se refieren a la cita; no he profundizado en los detalles del estudio para esta respuesta porque no es relevante para el punto que estoy tratando. Pero dado que parece ser un estudio de un solo brazo con 42 pacientes en el que se excluyeron los 6 peores casos, soy escéptico sobre la utilidad de tales cálculos.

39voto

Aaron Puntos 36

"Es contraintuitivo, pero cuanto más pequeño es el tamaño de la muestra de un análisis clínico, más significativos son sus resultados. Las diferencias en una muestra de 20 personas pueden ser más significativas que en una muestra de 10.000 personas. Si necesitamos una muestra así, corremos el riesgo de equivocarnos. Con 10.000 personas, cuando las diferencias son pequeñas, a veces no existen".

He leído el artículo enlazado (vía Google-translate) en el que se da esta cita. Desgraciadamente, no aporta ninguna claridad adicional sobre lo que quiso decir el profesor Raoult. Por sí sola, esta afirmación no tiene ningún sentido para mí. Es un amasijo de referencias poco claras y razonamientos inválidos, y muestra un malentendido fundamental del objetivo de la inferencia estadística y de la mecánica de una prueba de hipótesis. El objetivo del muestreo no es tratar de engañar a la prueba de significación; es hacer la inferencia más precisa posible sobre un parámetro o hipótesis desconocidos, y eso se hace tomando tantos datos como sea posible.

En cuanto a la afirmación de que un tamaño de muestra menor tenderá a ser "más significativo", es falsa. Suponiendo que se trate de datos continuos y que los supuestos de la prueba sean correctos, el valor p de la prueba de hipótesis debería ser uniforme bajo la hipótesis nula independientemente del tamaño de la muestra --- es decir, la fórmula del valor p tiene en cuenta el tamaño de la muestra y, por lo tanto, no existe una tendencia a que las muestras más pequeñas sean "más significativas". Si existiera esa tendencia, se consideraría un fallo del procedimiento de prueba, no algo que se deba aprovechar para "engañar" a la prueba de hipótesis.

El profesor Raoult afirma que podemos "necesitar una muestra de este tipo" (es decir, una muestra con una diferencia significativa), lo que lamentablemente sugiere que el objetivo de la metodología de la prueba es maximizar las posibilidades de llegar a una conclusión deseable preconcebida. Este es el tipo de cosas que oigo de vez en cuando a los investigadores aplicados que se empeñan demasiado en intentar demostrar alguna hipótesis suya, y me da escalofríos: si el objetivo de las pruebas estadísticas es simplemente afirmar una conclusión preconcebida, entonces también podríamos desechar la estadística por completo.

Ahora bien, es posible que el profesor Raoult tuviera en mente un punto totalmente diferente, y que simplemente esté mezclando sus palabras estadísticas y diciendo algo equivocado. (La última frase es contradictoria tal y como está escrita, por lo que obviamente debe querer decir algo otra cosa, pero no sé qué). He visto que esto ocurre muchas veces al escuchar descripciones de fenómenos estadísticos por parte de investigadores aplicados que no tienen formación en estadística teórica. En este caso, yo simplemente ignoraría la cita, porque o bien es totalmente errónea, o bien es un intento fallido de decir algo completamente diferente. En cualquier caso, tienes razón en tus sospechas: es no mejor para tener menos datos.

13 votos

Gracias por la frase "El objetivo del muestreo no es tratar de engañar a la prueba de significación". Tengo que anotarlo en algún sitio.

24voto

Dave Puntos 76

(Creo que la frase es deliberadamente provocativa).

Si tienes 10 observaciones y quieres demostrar que su media no es cero, tendrá que ser bastante diferente de 0 si quieres tener algún tipo de posibilidad (potencia) de detectar la diferencia.

Si tiene un trillón de observaciones y quiere demostrar que su media no es 0, la media podría ser sólo un poco diferente de cero, tal vez sólo 0,01, y todavía tendría una posibilidad considerable de detectar esta diferencia. Sí, todos estamos de acuerdo en que $0\ne 0.01$ pero la importancia práctica de una media de 0,01 en lugar de 0 podría ser intrascendente: a nadie le importa.

Sin embargo, si se detecta una diferencia en esa muestra de diez, es probable que la diferencia con respecto a cero sea bastante grande, probablemente hasta el punto de tener una importancia práctica. La cita se refiere a la importancia práctica.

Los cálculos de potencia, junto con la experiencia en la materia que guía lo que cuenta como una diferencia interesante ("tamaño del efecto"), formalizan esto.

EDITAR

El prometido cálculo de potencia, que resultó ser un cálculo del tamaño del efecto.

library(pwr)
n1 <- 100
n2 <- 100000
alpha = 0.05
power = 0.8

# find the effect size, d, for n=100
#
pwr.t.test(n1, sig.level=alpha, power=power)$d # this is 0.3981407

# find the effect size, d, for n=100,000
#
pwr.t.test(n2, sig.level=alpha, power=power)$d # this is 0.01252399

En este ejemplo, la prueba sobre sólo 100 sujetos es capaz de detectar una diferencia de media de $0.398$ $80\%$ del tiempo. La prueba en 100.000 sujetos es capaz de detectar una diferencia de $0.013$ $80\%$ del tiempo. Si necesita una diferencia de al menos $0.15$ para que los resultados sean interesantes, entonces no es tan útil que la prueba de 100.000 sujetos haga "ding ding ding, RECHAZAR" cada vez que ve un efecto observado de $0.013$ . Sin embargo, si la prueba de 100 sujetos rechaza, puede tener más confianza en que el tamaño del efecto es lo suficientemente grande como para ser interesante.

(Esa diferencia es el número de desviaciones estándar de la población del grupo.

0 votos

¿Pero qué pasa con el ruido? Si hay ruido, un menor puede ser totalmente ruido.

0 votos

@StephaneRolland por favor amplíe lo que quiere decir con eso.

0 votos

Si la hidroxicloroquina no tiene efecto alguno, lo que medimos puede ser ruido: reacciones comunes a la enfermedad.

11voto

Alex Puntos 128

¿Puede confirmar que es una afirmación FALSA en las estadísticas

Creo que la declaración está mal redactada. En este contexto, la palabra "significativo" parece tener el sabor de "importancia". Las diferencias detectadas en conjuntos de datos más pequeños no son de alguna manera más importantes o significativas por el hecho de ser detectadas en conjuntos de datos pequeños. Más bien, las diferencias detectadas en conjuntos de datos pequeños suelen ser muy grandes en comparación con el ruido inherente a los datos (suponiendo que las diferencias no sean falsos positivos o el resultado de algún tipo de sesgo), lo que explica por qué las detectamos en primer lugar. El término "significativo" se ha sobrecargado en estadística, lo que a menudo lleva a la confusión y al mal uso.

Yo no concluiría de esto que los conjuntos de datos más pequeños son mejores. De hecho, los datos grandes (o quizás más apropiadamente, datos suficientes ) es mejor que los datos pequeños porque puedo estimar lo que quiero con suficiente precisión. También hay que tener en cuenta que hay cosas mucho más importantes que el tamaño de la muestra en la investigación médica. Así que la responsabilidad no se limita a decir que se ha detectado una gran diferencia.

Ahora bien, no puedo determinar si las afirmaciones del Dr. Raoul sobre la hidroxicloroquina son exactas o no. Pero, si su intención es argumentar que las diferencias detectadas en grupos pequeños son grandes (de nuevo, asumiendo que las diferencias no son falsos positivos o el resultado de un sesgo), entonces puedo entenderlo.

2 votos

Hay sesgos conocidos en el estudio, concretamente éste: se han eliminado los datos de los fallecidos, ya que éstos no podían aportar datos durante toda la duración del estudio.

10 votos

Entonces los datos, pequeños o grandes, no son fiables y sus comentarios son discutibles.

9voto

joojaa Puntos 108

La cita en cuestión parece provenir de marianne.net (en francés) y, tal como está, es definitivamente errónea. Pero, como Demetri y Dave señaló, con un poco de lenguaje de flexión puede haber algo de verdad en ella.

A mi entender, el profesor Raoult confunde significación y tamaño del efecto. En una muestra pequeña, el tamaño del efecto tiene que ser grande (es decir, de relevancia práctica) para ser estadísticamente significativo. En muestras grandes, incluso efectos muy pequeños, insignificantes a efectos prácticos, pueden ser estadísticamente "significativos".

Sólo como ejemplo práctico: Si el verdadero efecto de un medicamento es prolongar la vida de un paciente en una media de un día, lo más probable es que sea inútil a efectos prácticos. En una muestra pequeña, digamos 20 personas, esta pequeña prolongación de la vida probablemente se ahogará en el ruido y no se notará en absoluto. En una muestra de $10^9$ personas, puede ser capaz de verlo.

Eso no significa que las muestras más pequeñas sean mejores. El hecho de que se haya comprobado que el efecto es distinto de cero no significa que el hipotético fármaco valga su precio (supongo que hay algún coste directo asociado, y probablemente haya otros costes de oportunidad). La "significación estadística" no es el criterio adecuado para tomar decisiones, e incluso el tamaño del efecto no es suficiente (aunque siempre hay que mirarlo). La toma de decisiones siempre implica equilibrar costes y beneficios.

Como de refutar la declaración original:

Si un conjunto de datos más pequeño es mejor, ¿por qué no tomamos el conjunto vacío, de tamaño cero, y anunciamos simplemente el resultado que más nos convenga?

2 votos

Para la refutación, es un poco provocador :-) Pero con un conjunto de datos de sólo uno tal vez ? Y entonces el peligro de un conjunto de muestras pequeño se hace más evidente. ¿Qué opina usted?

1 votos

Por supuesto, mi refutación se ha llevado al extremo intencionadamente, para hacer evidente lo disparatada que es la afirmación original. En la práctica, se podría tomar una muestra de dos, y dividirla en un grupo de tratamiento y otro de control, ambos con un tamaño de uno. Esa es la mínima muestra posible. ¿Es esa muestra mejor que una muestra de 20, o de 200, o de 200.000?

0 votos

Incluso en su defensa de la declaración (reinterpretada), ignora el efecto del ruido. Con sólo 10 personas en cada grupo, si modelamos los resultados como distribuciones de Poisson con una lambda de 6 y 7 para los no tratados y los tratados, entonces más del 3,5% de las veces, es probable encontrar una diferencia de más de 3 días de tiempo de supervivencia. Podemos discutir sobre si que vale la pena el coste del medicamento, pero aún así se corre el riesgo de sobrestimar (dramáticamente) el tamaño del efecto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X