En la investigación científica real, es bastante raro que los datos procedan de un verdadero muestreo aleatorio. Los datos son casi siempre muestras de conveniencia. Esto afecta principalmente a la población a la que se puede generalizar. Dicho esto, incluso si fueran una muestra de conveniencia, proceden de alguna parte, sólo hay que tener claro de dónde y las limitaciones que ello implica. Si realmente crees que tus datos no son representativos de nada, entonces tu estudio no va a valer la pena en ningún nivel, pero probablemente no sea cierto 1 . Por lo tanto, a menudo es razonable considerar que las muestras se han extraído de algún lugar y utilizar estas pruebas estándar, al menos en un sentido matizado o calificado.
Sin embargo, hay una filosofía diferente de las pruebas que sostiene que debemos alejarnos de esas suposiciones y de las pruebas que se basan en ellas. Tukey era un defensor de esto. En cambio, la mayoría de las investigaciones experimentales se consideran (internamente) válidas porque las unidades de estudio (por ejemplo, los pacientes) fueron asignadas al azar a los brazos. Teniendo en cuenta esto, se puede utilizar pruebas de permutación que, en su mayoría, sólo suponen que la aleatorización se hizo correctamente. El contraargumento para no preocuparse demasiado por esto es que las pruebas de permutación suelen mostrar lo mismo que las pruebas clásicas correspondientes, y son más trabajadas. Así que, de nuevo, las pruebas clásicas pueden ser aceptables.
1. Para más información sobre este tema, puede ser útil leer mi respuesta aquí: <a href="https://stats.stackexchange.com/a/32149/7290">Identificar la población y las muestras de un estudio </a>.
0 votos
Si la técnica de muestreo introduce un sesgo, entonces no es 'aleatoria'. Si no introduce ningún sesgo, entonces es 'aleatorio' (para alguna definición de aleatorio;-). He tenido esquemas de muestreo que simplemente tomaban una de cada siete muestras para crear un tamaño de muestra igual al de la contramuestra. Sin embargo, sabía que no había ningún aspecto especial en esa selección, por lo que lo que puede considerarse un proceso de muestreo no aleatorio seguía siendo efectivamente aleatorio. Es lo mismo que seleccionar las bolas 1,2,3,4,5,6 en la lotería. Es tan aleatorio como cualquier otra secuencia.
1 votos
@PhilipOakley: seleccionar las bolas 1,2,3,4,5,6 en la lotería te da las mismas posibilidades de ganar que cualquier otra selección, pero reduce tus ganancias esperadas ya que es más probable que tengas que compartir el premio con otros que tuvieron la misma idea
1 votos
El muestreo sistemático, como el descrito por @Philip, suele analizarse como si produjera simples muestras aleatorias, pero tiene trampas. Por ejemplo, si se midiera un proceso de fabricación todos los días y se tomara una muestra cada siete mediciones, se podrían confundir los resultados con un efecto de día de la semana, ya que (obviamente) se tomaría la muestra el mismo día cada semana. Hay que esforzarse más para pensar y abordar estas sutilezas cuando se trata de muestras no aleatorias.
0 votos
@Henry, Sí, ese es un buen ejemplo de la confusión sobre la aleatoriedad y el sesgo (¿es la posibilidad de ganar o la cantidad de ganancias?). A cierto nivel, la aleatoriedad no existe xkcd.com/221 & Douglas Adams en La guía del autoestopista galáctico, "Exigimos zonas de duda e incertidumbre rígidamente definidas". ...
1 votos
@whuber, Absolutamente. ¡¡Hay que pensar mucho (y ampliamente) en estas cosas!! En mi caso, tenía horas de vídeo, con cientos de eventos, con largos intervalos entre ellos, por lo que necesitaba reducir el tamaño de los datos del conjunto de no eventos para una simple regresión logística (cada fotograma considerado de forma independiente, poco cambio entre los fotogramas), por lo que descartar muchos fotogramas de no eventos era razonable. El aspecto de la secuencia temporal se consideró por separado.
1 votos
@Philip Curiosamente, casi al mismo tiempo que escribías ese comentario sobre que la aleatoriedad no existe, el NIST emitió un comunicado de prensa afirmando que lo hace . Una cuenta aparece en El número de hoy (4 de abril de 2018) de Naturaleza .
0 votos
@whuber, sí he leído ese. Como alguien que trabaja en fotónica, sospecho que forma parte de la continua tergiversación de la dualidad matemática de "onda plana" frente a "partícula puntual" como algo unilateral. Sospecho firmemente que la "aleatoriedad" es en realidad sólo cuantos inobservables que entran por detrás del cono de luz. La mayor parte de la tergiversación se debe a que Gibbs utilizó el álgebra vectorial/matriz cartesiana de 4 dimensiones en lugar del álgebra de cuaterniones (Clifford) con la que Maxwell resumió su teoría EM (art. 618 de su libro)
0 votos
El artículo de Nature (preimpresión) también está en arxiv.org/abs/1702.05178