29 votos

¿Necesitamos pruebas de hipótesis cuando tenemos toda la población?

Según tengo entendido, las pruebas de hipótesis se realizan para identificar si un hallazgo en la población de la muestra es estadísticamente significativo. Pero si tengo datos de un censo, ¿realmente necesitamos pruebas de hipótesis?

Estaba pensando que tal vez debería realizar un muestreo aleatorio múltiple de los datos del censo y ver si hay algún comportamiento aleatorio.

52voto

bessman Puntos 2514

Todo depende de su objetivo.

Si se quiere saber cuántas personas fuman y cuántas mueren de cáncer de pulmón, basta con contarlas, pero si se quiere saber si el tabaquismo aumenta el riesgo de cáncer de pulmón, se necesita la inferencia estadística.

Si se quiere conocer los logros educativos de los estudiantes de secundaria, basta con mirar los datos completos, pero si se quiere conocer los efectos de los antecedentes familiares y las capacidades mentales de los estudiantes de secundaria en sus eventuales logros educativos, se necesita la inferencia estadística.

Si se quieren conocer los ingresos de los trabajadores, basta con mirar los datos del censo, pero si se quieren estudiar los efectos del nivel educativo en los ingresos, se necesita la inferencia estadística (se pueden encontrar más ejemplos en Morgan & Winship, Contrafactualidad e inferencia causal: Métodos y principios para la investigación social .)

En general, si sólo busca estadísticas de resumen para comunicar la mayor cantidad de información de la forma más sencilla posible, basta con contar, sumar, dividir, graficar, etc.

Pero si desea predecir lo que va a pasar, o para entender lo que causa qué, entonces necesitas la inferencia estadística: supuestos, paradigmas, estimación, pruebas de hipótesis, validación de modelos, etc.

20voto

richard bradford Puntos 1

Para ilustrar mis puntos, supondré que se ha preguntado a todo el mundo si prefiere Star Trek o Doctor Who y tiene que elegir uno de ellos (no hay opción neutral). Para simplificar las cosas, supongamos también que los datos del censo son realmente completos y precisos (lo que rara vez ocurre).

Hay algunas advertencias importantes sobre su situación:

  1. Su población demográfica casi nunca es su población estadística. De hecho, no se me ocurre un solo ejemplo en el que sea razonable plantear el tipo de preguntas que responden las pruebas estadísticas sobre una población estadística que es una población demográfica.

    Por ejemplo, suponga que quiere resolver de una vez por todas la cuestión de si Star Trek o Doctor Who es mejor, y se define mejor a través de la preferencia de todas las personas vivas en el momento del censo. Se encuentra que 1234567 personas prefieren Star Trek y 123456 9 la gente prefiere Doctor Who. Si quieres aceptar este veredicto tal cual, no hace falta ninguna prueba estadística.

    Sin embargo, si se quiere averiguar si esta diferencia refleja la preferencia real o se puede explicar forzando a los indecisos a hacer una elección al azar. Por ejemplo, ahora puede investigar el modelo nulo de que la gente elige entre los dos al azar y ver lo extrema que es una diferencia de 2 para el tamaño de su población demográfica. En ese caso, su población estadística no es su población demográfica, sino el resultado agregado de una cantidad infinita de censos realizados sobre su población demográfica actual.

  2. Si tiene datos del tamaño de la población de una región administrativa de tamaño razonable y para las preguntas que suele responder, deberías centrarte en tamaño del efecto no en la importancia.

    Por ejemplo, no hay implicaciones prácticas si Star Trek es mejor que Doctor Who por un pequeño margen, pero hay que decidir cosas prácticas como el tiempo que se asigna a los programas de la televisión nacional. Si 1234567 personas prefieren Star Trek y 1234569 personas prefieren Doctor Who, decidirías asignar a ambos la misma cantidad de tiempo de pantalla, independientemente de que esa pequeña diferencia sea estadísticamente significativa o no.

    Como nota al margen, una vez que te preocupas por el tamaño del efecto, es posible que quieras saber el margen de error de este, y esto puede ser efectivamente determinado por algún muestreo aleatorio como el que estás aludiendo en tu pregunta, a saber bootstrapping .

  3. El uso de poblaciones demográficas tiende a conducir a pseudoreplicación . La prueba estadística típica supone que las muestras no están correlacionadas. En algunos casos se puede evitar este requisito si se dispone de buena información sobre la estructura de la correlación y se construye un modelo nulo basado en ella, pero eso es más bien la excepción. En cambio, para las muestras más pequeñas, se evitan las muestras correlacionadas evitando explícitamente tomar muestras de dos personas del mismo hogar o similares. Cuando su muestra es toda la población demográfica, no puede hacer esto y, por tanto, inevitablemente tendrá correlaciones. No obstante, si las trata como muestras independientes, comete pseudoreplicación .

    En nuestro ejemplo, las personas no llegan a una preferencia de Star Trek o Doctor Who de forma independiente, sino que están influenciados por sus padres, amigos, parejas, etc. y sus destinos se alinean. Si el matriarca de algún clan popular prefiere Doctor Who, esto va a influenciar a muchas otras personas, lo que llevará a la pseudoreplicación. O bien, si cuatro aficionados mueren en un accidente de coche de camino a un Star Trek convención, boom, pseudoreplicación.

Para dar otra perspectiva a esto, consideremos otro ejemplo que evita en lo posible el segundo y tercer problema y es algo más práctico: Supongamos que estás a cargo de una reserva de fauna salvaje en la que se encuentran los únicos elefantes rosas que quedan en el mundo. Como los elefantes rosas destacan (adivina por qué están en peligro de extinción), puedes realizar fácilmente un censo sobre ellos. Observas que tienes 50 elefantes hembras y 42 machos y te preguntas si esto indica un verdadero desequilibrio o puede explicarse por fluctuaciones aleatorias. Puedes realizar una prueba estadística con la hipótesis nula de que el sexo de los elefantes rosas es aleatorio (con igual probabilidad) y no está correlacionado (por ejemplo, no hay gemelos monocigóticos). Pero también en este caso, su población estadística no es su población ecológica, sino todos los elefantes rosas que ha habido en el multiverso, es decir, incluye infinitas réplicas hipotéticas del experimento de hacer funcionar su reserva de fauna durante un siglo (los detalles dependen del alcance de su pregunta científica).

7voto

JornC Puntos 81

Es curioso. Me pasé años explicando a los clientes que en los casos con información censal real no había varianza y, por tanto, la significación estadística no tenía sentido.

Ejemplo: Si tengo datos de 150 tiendas de una cadena de supermercados que dicen que se vendieron 15000 cajas de Coca-Cola y 16000 cajas de Pepsi en una semana, podemos decir con seguridad que se vendieron más cajas de Pepsi. [Puede haber un error de medición, pero no de muestreo].

Pero, como apunta @Sergio en su respuesta, es posible que quieras una inferencia. Un ejemplo sencillo podría ser: ¿es esta diferencia entre Pepsi y Coca-Cola mayor de lo que suele ser? Para ello, se observaría la variación de la diferencia de ventas en comparación con la diferencia de ventas en semanas anteriores, y se trazaría un intervalo de confianza o se haría una prueba estadística para ver si esta diferencia es inusual.

4voto

jimmyd Puntos 45

En las aplicaciones típicas de las pruebas de hipótesis, no se tiene acceso a toda la población de interés, pero se quiere hacer afirmaciones sobre los parámetros que rigen la distribución de los datos en la población (media, varianza, correlación,...). Entonces, se toma una muestra de la población En este caso, se trata de una prueba de hipótesis, y se evalúa si la muestra es compatible con la hipótesis de que el parámetro de la población es un valor preestablecido (prueba de hipótesis), o se estima el parámetro a partir de la muestra (estimación de parámetros).

Sin embargo, cuando se tiene realmente la todo de la población, se encuentra en la rara posición de tener acceso directo a los verdaderos parámetros de la población - por ejemplo, la media de la población es sólo la media de todos los valores de la población. En ese caso, no es necesario realizar ninguna otra prueba de hipótesis o inferencia: el parámetro es exactamente lo que tienes.

Por supuesto, las situaciones en las que realmente se tienen datos de toda la población de interés son excepcionalmente raras, y en su mayoría se limitan a ejemplos de libros de texto.

2voto

asdf Puntos 106

Supongamos que se mide la altura de la población mundial actual y se quiere comparar la altura de hombres y mujeres.

Para comprobar la hipótesis "la altura media de los hombres vivos hoy en día es mayor que la de las mujeres vivas", basta con medir a todos los hombres y mujeres del planeta y comparar los resultados. Si la altura de los hombres es en promedio 0,0000000000000001cm más grande, incluso con una desviación estándar trillones de veces mayor, su hipótesis se demuestra correcta.

Sin embargo, esta conclusión probablemente no sea útil en la práctica. Dado que las personas nacen y mueren constantemente, probablemente no le interese la población actual, sino una población más abstracta de "seres humanos potencialmente existentes" o "todos los seres humanos de la historia" de la que toma como muestra a las personas vivas hoy. En este caso, se necesita una prueba de hipótesis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X