12 votos

¿Por qué varias pruebas de hipótesis paramétricas (si no todas) suponen un muestreo aleatorio?

Pruebas como la Z, la t y otras más suponen que los datos se basan en un muestreo aleatorio. ¿Por qué?

Supongamos que estoy haciendo una investigación experimental, en la que me importa mucho más la validez interna que la externa. Por lo tanto, si mi muestra puede estar un poco sesgada, de acuerdo, ya que he aceptado no inferir la hipótesis para toda la población. Y la agrupación seguirá siendo aleatoria, es decir, elegiré por conveniencia a los participantes de la muestra, pero los asignaré aleatoriamente a diferentes grupos.

¿Por qué no puedo ignorar esta suposición?

0 votos

Si la técnica de muestreo introduce un sesgo, entonces no es 'aleatoria'. Si no introduce ningún sesgo, entonces es 'aleatorio' (para alguna definición de aleatorio;-). He tenido esquemas de muestreo que simplemente tomaban una de cada siete muestras para crear un tamaño de muestra igual al de la contramuestra. Sin embargo, sabía que no había ningún aspecto especial en esa selección, por lo que lo que puede considerarse un proceso de muestreo no aleatorio seguía siendo efectivamente aleatorio. Es lo mismo que seleccionar las bolas 1,2,3,4,5,6 en la lotería. Es tan aleatorio como cualquier otra secuencia.

1 votos

@PhilipOakley: seleccionar las bolas 1,2,3,4,5,6 en la lotería te da las mismas posibilidades de ganar que cualquier otra selección, pero reduce tus ganancias esperadas ya que es más probable que tengas que compartir el premio con otros que tuvieron la misma idea

1 votos

El muestreo sistemático, como el descrito por @Philip, suele analizarse como si produjera simples muestras aleatorias, pero tiene trampas. Por ejemplo, si se midiera un proceso de fabricación todos los días y se tomara una muestra cada siete mediciones, se podrían confundir los resultados con un efecto de día de la semana, ya que (obviamente) se tomaría la muestra el mismo día cada semana. Hay que esforzarse más para pensar y abordar estas sutilezas cuando se trata de muestras no aleatorias.

18voto

Aaron Puntos 36

Si no se hace ninguna inferencia para un grupo más amplio que el de la muestra real, entonces no hay aplicación de pruebas estadísticas en primer lugar, y no se plantea la cuestión del "sesgo". En este caso, se limitaría a calcular las estadísticas descriptivas de su muestra, que son conocidas. Del mismo modo, en este caso no se plantea la cuestión de la "validez" del modelo: sólo se observan las variables y se registran sus valores, así como las descripciones de los aspectos de esos valores.

Una vez que decida ir más allá de su muestra, para hacer inferencias sobre algún grupo más grande, entonces necesitará estadísticas y tendrá que considerar cuestiones como el sesgo de muestreo, etc. En esta aplicación, el muestreo aleatorio se convierte en una propiedad útil para ayudar a obtener inferencias fiables del grupo más amplio de interés. Si no se dispone de un muestreo aleatorio (y no se conocen las probabilidades de las muestras en función de la población), resulta difícil o imposible hacer inferencias fiables sobre la población.

5voto

Sean Hanley Puntos 2428

En la investigación científica real, es bastante raro que los datos procedan de un verdadero muestreo aleatorio. Los datos son casi siempre muestras de conveniencia. Esto afecta principalmente a la población a la que se puede generalizar. Dicho esto, incluso si fueran una muestra de conveniencia, proceden de alguna parte, sólo hay que tener claro de dónde y las limitaciones que ello implica. Si realmente crees que tus datos no son representativos de nada, entonces tu estudio no va a valer la pena en ningún nivel, pero probablemente no sea cierto 1 . Por lo tanto, a menudo es razonable considerar que las muestras se han extraído de algún lugar y utilizar estas pruebas estándar, al menos en un sentido matizado o calificado.

Sin embargo, hay una filosofía diferente de las pruebas que sostiene que debemos alejarnos de esas suposiciones y de las pruebas que se basan en ellas. Tukey era un defensor de esto. En cambio, la mayoría de las investigaciones experimentales se consideran (internamente) válidas porque las unidades de estudio (por ejemplo, los pacientes) fueron asignadas al azar a los brazos. Teniendo en cuenta esto, se puede utilizar pruebas de permutación que, en su mayoría, sólo suponen que la aleatorización se hizo correctamente. El contraargumento para no preocuparse demasiado por esto es que las pruebas de permutación suelen mostrar lo mismo que las pruebas clásicas correspondientes, y son más trabajadas. Así que, de nuevo, las pruebas clásicas pueden ser aceptables.

1. Para más información sobre este tema, puede ser útil leer mi respuesta aquí: <a href="https://stats.stackexchange.com/a/32149/7290">Identificar la población y las muestras de un estudio </a>.

4voto

Auron Puntos 2123

Las pruebas como la Z, la t y otras más se basan en distribuciones de muestreo conocidas de las estadísticas pertinentes. Esas distribuciones muestrales, tal y como se utilizan generalmente, se definen para la estadística calculada a partir de una muestra aleatoria.

A veces puede ser posible concebir una distribución de muestreo pertinente para el muestreo no aleatorio, pero en general probablemente no sea posible.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X