Processing math: 100%

57 votos

Inferencia estadística cuando la muestra "es" la población

Imagínese que tiene que hacer un informe sobre el número de candidatos que se presentan anualmente a un determinado examen. Parece bastante difícil deducir el porcentaje de éxito observado, por ejemplo, en una población más amplia debido a la especificidad de la población objetivo. Así que puede considerar que estos datos representan a toda la población.

¿Son realmente correctos los resultados de las pruebas que indican que las proporciones de hombres y mujeres son diferentes? ¿Parece correcta una prueba que compara las proporciones observadas y las teóricas, ya que considera toda una población (y no una muestra)?

39voto

Omar Kooheji Puntos 384

Puede haber diversas opiniones al respecto, pero yo trataría los datos de la población como una muestra y asumiría una población hipotética, para luego hacer inferencias de la manera habitual. Una forma de pensar en esto es que hay un proceso de generación de datos subyacente responsable de los datos recogidos, la distribución de la "población".

En tu caso particular, esto podría tener aún más sentido ya que tendrás cohortes en el futuro. Entonces, su población es realmente cohortes que realizan la prueba incluso en el futuro. De este modo, podría dar cuenta de las variaciones basadas en el tiempo si tiene datos de más de un año, o intentar dar cuenta de los factores latentes a través de su modelo de error. En resumen, puede desarrollar modelos más ricos con mayor poder explicativo.

31voto

J Wynia Puntos 4679

En realidad, si estás realmente seguro de que tienes a toda la población, ni siquiera es necesario entrar en las estadísticas. Entonces sabes exactamente lo grande que es la diferencia, y no hay ninguna razón para seguir probando. Un error clásico es utilizar la significación estadística como significación "relevante". Si has tomado una muestra de la población, la diferencia es la que es.

Por otra parte, si se reformula la hipótesis, los candidatos pueden considerarse una muestra de posibles candidatos, lo que permitiría realizar pruebas estadísticas. En este caso, probarías en general si los hombres y las mujeres difieren en la prueba en cuestión.

Como dijo ars, se pueden utilizar pruebas de varios años y añadir el tiempo como factor aleatorio. Pero si lo que te interesa realmente son las diferencias entre estos candidatos en esta prueba concreta, no puedes utilizar la generalización y las pruebas no tienen sentido.

19voto

Rob Wells Puntos 361

Tradicionalmente, la inferencia estadística se enseña en el contexto de las muestras de probabilidad y la naturaleza del error de muestreo. Este modelo es la base de la prueba de significación. Sin embargo, hay otras formas de modelar las desviaciones sistemáticas del azar y resulta que nuestras pruebas paramétricas (basadas en el muestreo) suelen ser buenas aproximaciones a estas alternativas.

Las pruebas paramétricas de hipótesis se basan en la teoría del muestreo para producir estimaciones del error probable. Si se toma una muestra de un tamaño determinado de una población, el conocimiento de la naturaleza sistemática sistemática del muestreo hace que las pruebas y los intervalos de confianza tengan sentido. Con una población, la teoría del muestreo simplemente no es relevante y las pruebas no tienen sentido en el sentido tradicional. La inferencia es inútil, no hay nada que inferir, sólo existe la cosa... el parámetro en sí.

Algunos lo sortean apelando a las superpoblaciones que representa el censo actual. Me parece que estas apelaciones no son convincentes: las pruebas paramétricas se basan en el muestreo probabilístico y sus características. Una población en un momento dado puede ser una muestra de una población mayor a lo largo del tiempo y del lugar. Sin embargo, no veo ninguna manera de poder argumentar legítimamente que se trata de una muestra aleatoria (o, más generalmente, de cualquier forma de probabilidad). Sin una muestra probabilística, la teoría del muestreo y la la teoría del muestreo y la lógica tradicional de las pruebas simplemente no se aplican. También se puede hacer una prueba sobre la base de una muestra de conveniencia.

Está claro que para aceptar las pruebas cuando se utiliza una población, tenemos que prescindir de la base de esas pruebas en los procedimientos de muestreo. Una forma de hacerlo es reconocer la estrecha conexión entre nuestras pruebas teóricas de la muestra -como t, Z y F- y los procedimientos de aleatorización. Las pruebas de aleatorización se basan en la muestra que tenemos a mano. Si recojo datos sobre los ingresos de hombres y mujeres, el modelo de probabilidad y la base de nuestras estimaciones de error son asignaciones aleatorias repetidas de los valores de los datos reales. Podría comparar las diferencias observadas entre los grupos con una distribución basada en esta aleatorización. (Por cierto, hacemos esto todo el tiempo en los experimentos, donde el muestreo aleatorio de un modelo de población rara vez es apropiado).

Ahora bien, resulta que las pruebas teóricas de la muestra son a menudo buenas aproximaciones de las pruebas de aleatorización. Así que, en última instancia, creo que las pruebas a partir de poblaciones son útiles y significativas dentro de este marco y pueden ayudar a distinguir la variación sistemática de la aleatoria, al igual que con las pruebas basadas en muestras. La lógica utilizada para llegar a este punto es un poco diferente, pero no afecta mucho al significado práctico y al uso de las pruebas. Por supuesto, podría ser mejor utilizar directamente las pruebas de aleatorización y permutación, ya que están fácilmente disponibles con toda nuestra potencia informática moderna.

4voto

dca Puntos 141

Supongamos que los resultados indican que los candidatos difieren en función del género. Por ejemplo, la proporción de los que completaron las pruebas es la siguiente 40% de mujeres y 60% de hombres. Para sugerir lo obvio, el 40% es diferente al 60%. Ahora lo importante es decidir 1) su población de interés; 2) cómo se relacionan sus observaciones con la población de interés. A continuación se ofrecen algunos detalles sobre estas dos cuestiones:

  1. Si su población de interés son solo los candidatos que ha observado (por ejemplo, los 100 candidatos que se presentaron a una universidad en 2016), no necesita informar de las pruebas de significación estadística. Esto se debe a que su población de interés fue muestreada completamente... todo lo que le importa son los 100 candidatos sobre los que tiene datos completos. Es decir, el 60% es, y punto, diferente al 40%. El tipo de pregunta que esto responde es: ¿hubo diferencias de género en la población de 100 que solicitaron el programa? Es una pregunta descriptiva y la respuesta es sí.

  2. Sin embargo, muchas preguntas importantes se refieren a lo que ocurrirá en diferentes escenarios. Es decir, muchos investigadores quieren descubrir tendencias sobre el pasado que nos ayuden a predecir (y luego planificar) el futuro. Un ejemplo de pregunta en este sentido sería: ¿Qué probabilidad hay de que las futuras pruebas de los candidatos sean diferentes en función del género? La población de interés es entonces más amplia que en el escenario nº 1 anterior. En este punto, una pregunta importante es ¿Es probable que los datos observados sean representativos de las tendencias futuras? Se trata de una pregunta inferencial y, según la información proporcionada por el cartel original, la respuesta es: no lo sabemos.

En resumen, las estadísticas que se presentan dependen del tipo de pregunta a la que se quiere responder.

Pensar en el diseño básico de la investigación puede ser de gran ayuda (inténtelo aquí: http://www.socialresearchmethods.net/kb/design.php ). Pensar en las superpoblaciones puede ser de ayuda si quieres información más avanzada (aquí hay un artículo que puede ayudar: http://projecteuclid.org/euclid.ss/1023798999#ui-tabs-1 ).

2voto

Danny Whitt Puntos 111

Si considera que lo que está midiendo es un proceso aleatorio, entonces sí que las pruebas estadísticas son relevantes. Por ejemplo, lanzar una moneda 10 veces para ver si es justa. Se obtienen 6 caras y 4 colas, ¿qué se concluye?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X