5 votos

Prueba de que una muestra no aleatoria se extrae de una población con distribución arbitraria

Tengo un conjunto de datos en la que hay alrededor de 500 mediciones para un determinado puntaje métrica. Los datos se normalizan de modo que la media es 0 y la desviación estándar es 1, pero la distribución es algo arbitrario. He aquí un histograma:

Histogram of score distribution

No tengo ninguna razón a priori para esperar una distribución particular. Y estos datos comprenden la totalidad de la población.

Dentro de este conjunto, hay 11 puntos de datos de interés, como determinado por una métrica independiente. Estas están indicadas por las líneas rojas en el histograma. Parece que las calificaciones de estos puntos en el primer métrica no son aleatorias, sino que es significativamente mayor que el promedio (la media de la puntuación de estos 11 puntos es ~1.43).

¿Cómo puedo probar que estos 11 puntos de datos no extraídos al azar de la población?

1voto

AdamSane Puntos 1825

Suponiendo que usted está particularmente interesado en saber si la media de la muestra es demasiado diferente de la media de población para ser consistentes con la selección al azar de la población, y que tiene toda la población se puede observar la distribución de la muestra de medios para muestras de tamaño 11 de esa población.

Esta es la nula distribución de la estadística de prueba (la media de la muestra) para la hipótesis de que la muestra es al azar.

Se muestra a continuación, donde la media de la muestra cae en la nula distribución (en concreto encontrar la proporción de resultados al menos tan extremo como el de tu ejemplo de proporción).

Aquí tenemos una ilustración de datos similar a la tuya:

enter image description here

Para una prueba una cola de calcular la proporción cuyos medios son al menos tan lejos de la media de población en la dirección especificada en su muestra es (que es lo que el calculado anteriormente). Si su alternativa es de dos colas, también es necesario identificar a qué te refieres por "al menos tan extremo en la otra dirección" (podría ser "la media es al menos tan lejos abajo", o simplemente puede ser que usted está después de una manera similar extrema cuantil en la otra dirección, que sería resultado de la duplicación de la cola de la proporción). En las dos colas caso, puede ser más fácil comenzar a pensar en una forma adecuada de rechazo de la regla y, a continuación, ajustar su rechazo a la regla que desee para el nivel de significación.

En cualquier caso, si la resultante p-valor es menor que el nivel de significación, se podría rechazar la hipótesis nula de selección al azar de la población.

Todo lo anterior supone que la decisión de la comparación de las medias no se hizo sobre la base de lo que se ve en el ejemplo, pero fue una comparación de la que desea hacer antes de que la muestra fue mirado.


Si quieres una prueba más general de una comparación de medias, se puede buscar en un procedimiento similar a partir de una bondad de ajuste estadístico (pero esta ampliación de las alternativas que se están considerando se suele traer consigo una pérdida de potencia). Si la decisión de restringir la comparación de una prueba de medias se basa en la observación de los datos (pero usted todavía tiene que quería que la comparación), esta opción puede ser la única opción razonable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X