55 votos

¿Cómo decidimos cuándo una muestra pequeña es estadísticamente significativa o no?

Perdona si el título no es claro, no soy un estadístico y no estoy seguro de cómo expresar esto.

Estaba mirando el estadísticas mundiales de coronavirus en worldometers y ordené la tabla por casos por millón de habitantes para tener una idea de cómo les ha ido a los distintos países.

Nota El uso que hago de la Ciudad del Vaticano a continuación se debe únicamente a que fue el primer país pequeño que vi en la lista. Como ha señalado @smci, la Ciudad del Vaticano tiene algunos problemas que la diferencian de las demás. Por lo tanto, por favor, tened en cuenta "país pequeño" cuando sigáis leyendo, ya que mi pregunta se aplica a cualquier país pequeño.

La tabla muestra que la Ciudad del Vaticano es el séptimo peor país, con 33.666 casos por millón. Ahora bien, dado que la población total de la Ciudad del Vaticano es de sólo 802 personas, no estoy seguro de qué importancia puede tener esta cifra. Cuando la población del país es pequeña, incluso una pequeña fluctuación en el número de casos supondría una diferencia significativa en los casos por millón. Como ejemplo artificial, consideremos un país ficticio con sólo 1 habitante. Si esa persona contrajera el virus, los casos por millón serían 1.000.000, lo que es mucho más alto que todo lo que aparece en esa tabla.

Obviamente, la Ciudad del Vaticano es un ejemplo extremo, pero hay otros países con poblaciones pequeñas que aparecen bastante arriba en la lista, y supongo que la misma pregunta se aplicaría a ellos.

Entonces, ¿hay alguna forma de decidir qué es una población "demasiado pequeña" para ser significativa?

Si esta pregunta no es lo suficientemente clara, por favor, explique por qué en lugar de votar a la baja, ya que me gustaría entenderlo, y estoy feliz de aclarar si no lo he explicado lo suficientemente bien.

58voto

jldugger Puntos 7490

Describiré cómo interpreta un estadístico los datos de recuento. Con un poco de práctica tú también puedes hacerlo.

El análisis básico

Cuando los casos surgen al azar y independientemente, los tiempos de sus ocurrencias se modelan con razonable precisión con un Proceso de Poisson. Esto implica que el número de casos que aparecen en cualquier intervalo predeterminado tiene una distribución de Poisson. Lo único que debemos recordar al respecto es que su varianza es igual a su expectativa. En una jerga menos técnica, esto significa que la cantidad en la que es probable que el valor difiera de la media (su error estándar ) es proporcional al raíz cuadrada de la media. (Ver ¿Por qué se recomienda la transformación de raíz cuadrada para los datos de recuento? para una explicación y discusión de la raíz cuadrada y algunas transformaciones relacionadas de los datos de conteo).

En la práctica, estimamos la media utilizando el valor observado. Así,

El error estándar de un recuento de sucesos independientes con tasas de ocurrencia esperadas iguales es la raíz cuadrada del recuento.

(Existen varias modificaciones de esta regla para recuentos realmente pequeños, especialmente recuentos de cero, pero eso no debería ser un problema en la presente aplicación).

En el caso de la Ciudad del Vaticano, una tasa de 33.666 casos por millón corresponde a

$$\frac{33666}{10^6} \times 802 = 27$$

casos. La raíz cuadrada de $27$ es $5$ (normalmente no hay que preocuparse por las cifras significativas adicionales para este tipo de análisis, que suele hacerse mentalmente y de forma aproximada).

Equivalentemente, este error estándar es $\sqrt{27}$ casos de $802$ personas, lo que equivale a $6500$ por millón. Por lo tanto, estamos justificados al afirmar

La tasa de casos de la Ciudad del Vaticano es $33666\pm 6500$ por millón.

Esto demuestra lo tonto que es citar cinco cifras significativas para la tasa. Es mejor reconocer el gran error estándar limitando las cifras significativas, como en

La tasa de casos observada en la Ciudad del Vaticano es $34000 \pm 6500$ por millón.

(No cometa el error de tomar simplemente la raíz cuadrada del ¡Una tasa! En este ejemplo, la raíz cuadrada de 33.666 es sólo 183, lo que es demasiado pequeño. Para estimar los errores estándar Las raíces cuadradas se aplican a los recuentos, no a los índices. )

Una buena regla general es utilizar un dígito significativo adicional cuando se informa del error estándar, como hice aquí (la tasa de casos se redondeó al millar más cercano y su SE se redondeó al 100 más cercano).

Un análisis algo más matizado

Los casos no son independientes: las personas se contagian de otras personas y, como los seres humanos no se lanzan por el mundo como átomos en un frasco de gas caliente, los casos se producen en racimos. Esto viola la suposición de independencia. Lo que realmente ocurre, pues, es que el efectivo debe estar entre el número de casos y el número de grupos distintos. No podemos saber este último: pero seguramente es menor (quizás mucho menor) que el número de casos. Así pues,

La regla de la raíz cuadrada da un límite inferior en el error estándar cuando los eventos están correlacionados (positivamente).

A veces se puede estimar cómo ajustar el error estándar. Por ejemplo, si se adivina que los casos ocurren en grupos de diez o más, entonces se debe multiplicar el error estándar por la raíz cuadrada de diez. En general,

El error estándar de un recuento de correlacionado positivamente es, a grandes rasgos, la raíz cuadrada del recuento por la raíz cuadrada de un tamaño de grupo típico.

Esta aproximación surge al suponer que todos los casos de un conglomerado están perfectamente correlacionados y que, en caso contrario, los casos de dos conglomerados diferentes son independientes.

Si sospechamos que los casos de la Ciudad del Vaticano están agrupados, en el caso más extremo se trata de un solo grupo: el recuento es $1,$ su raíz cuadrada es $1,$ y el error estándar, por tanto, es un grupo entero: a saber, sobre $27$ personas. Si se quiere ser cauteloso para no exagerar la fiabilidad de las cifras, entonces, se podría pensar que esta tasa de la Ciudad del Vaticano está entre un poco más de cero y probablemente menos de 70.000 por millón ( $1\pm 1$ grupos de $27$ de una población de $802$ ).

3voto

Dipstick Puntos 4869

Citando a Wikipedia :

En las pruebas de hipótesis estadísticas, un resultado tiene un valor estadístico cuando es muy improbable que se produzca dada la hipótesis nula. hipótesis nula.

El resultado de una prueba estadística puede ser significativo o no. El tamaño de la muestra no es una prueba. ¿Significativo en qué sentido? La prevalencia de COVID-19 es una característica de un país en particular, en un momento determinado, el hecho de que un país tenga una prevalencia menor (o mayor) que otro país no lo hace más, o menos "significativo". Es como si dijeras que las personas más altas son más significativas que las bajas, la afirmación no tiene sentido.

Es cierto que una muestra más pequeña puede variar más que una más grande, pero hay que tenerlo en cuenta en relación con el tamaño de la población. La muestra de 802 casos sería pequeña para decir algo sobre la población de China, pero en el caso de la Ciudad del Vaticano, se trataría de toda la población, por lo que no habría incertidumbre.

Por último, si quiere decir que la prevalencia en la Ciudad del Vaticano no es "significativa" porque no suma muchos casos a la prevalencia total de COVID-19 en todo el mundo, entonces tiene razón. Sin embargo, si esto es lo que te interesa, en lugar de mirar la prevalencia relativa (por 100.000 habitantes) deberías mirar los recuentos brutos, que obviamente serían mayores, para los países más grandes.

3voto

@Avroham. Creo que la palabra "significativo" es tan ambigua que no deberías usarla en tu pregunta. Tiene un significado técnico muy definido en estadística, pero tiene muchos otros significados más generales. Creo que la frase "estadísticamente convincente" sería mejor. Es aún más ambigua en un sentido, pero no tiene un significado técnico que pueda confundirse con un significado cotidiano. La excelente respuesta de @whuber sigue siendo totalmente pertinente con esta nueva redacción.

2voto

Md. Rejaul Karim Puntos 101

Creo que lo que preguntas es si hay algún tamaño mínimo de muestra predeterminado que deba tomarse para tener significación estadística. En el caso de ver el mundo frente al Vaticano en términos de casos/millones es obvio que una proporción de 7,8 mil millones a 807 hace que cualquier comparación sea insignificante, es decir, ninguno es predictivo del otro. Usted quiere saber qué tamaño mínimo de muestra es significativo. ¿Es 780? 7,800? 78,000? 780,000? ¿7,8 millones? 78 M? 780 M? Creo que se pueden hacer muestras pequeñas al encuestar a los votantes y obtener resultados significativos, pero con algo como el covid19 realmente se reduce a factores como el lugar, la densidad de población, el avance tecnológico, si tienen un sistema médico moderno, etc. Por sí sola, la muestra del Vaticano sería probablemente una buena comparación con un área de 5 manzanas de la ciudad de Nueva York en términos de "¿podrían" ver una tasa de contracción de 33.000+/millones? Pero, ¿es una indicación de que el mundo acabará viendo una tasa de contracción de 33.000/millones? La muestra del Vaticano es entonces insignificante en un sentido predictivo. Sin la muestra del Vaticano ya sabemos que el virus puede propagarse a toda una casa y matar a todos los habitantes de la misma. También puede infectar a todos en una casa y que ninguno muestre síntomas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X