6 votos

¿Debo descartar el 90% de los experimentos para que la muestra sea independiente?

Estoy leyendo OpenIntro Statistics de David Diez y dice que para hacer una inferencia sobre una media muestral hay que validar que las observaciones son independientes:

enter image description here Estoy realizando un test A/B y quiero hacer una inferencia sobre la media de la muestra, ¿tengo que descartar el 90% de los experimentos para satisfacer esta condición?

Para más contexto: La prueba A/B se ejecuta en un sitio web y cada experimento es un usuario al que se le asigna una de las 2 variantes del sitio web.

4 votos

Este es un verdadero interesante pregunta que (espero) escandalizaría a los autores de ese texto (que son conocidos profesores), porque estoy seguro de que nunca imaginaron que este pasaje se interpretaría de esta manera; pero en mi opinión es totalmente culpa suya, porque es muy vago y poco útil. (Lo encontré en el texto en openintro.org/download.php?file=os3_tablet en la p. 223 y comprobé que el contexto no aporta ninguna aclaración). Me da una idea de cómo mis propios escritos pueden ser malinterpretados, lo cual es una lección de humildad.

2 votos

Ok supongo que una experiencia tan humilde solo puede venir con una interpretación muy equivocada. Me quedo con que no los descartes. Mientras sigo esperando una explicación de ese párrafo si alguien puede.

5voto

Noah Puntos 85

Definitivamente, no es necesario descartar el 90% de sus observaciones. El pasaje habla de muestreo de un (finito) población . Si su población tuviera 10.000 unidades, el pasaje le recomienda extraer una muestra de tamaño inferior a 1.000. Mi intuición sobre la razón de esto es que al hacerlo se obtienen propiedades de la muestra aleatoria que son similares a las que se obtendrían si se extrajera de una muestra infinita de observaciones independientes (o si se extrajera con reemplazo de una población finita). Si su muestra es un porcentaje mayor de la población, la dependencia entre las observaciones podría ser inducida de la siguiente manera:

Imagine que tiene una población de 5 unidades y que realiza un muestreo sin reemplazo. Si ha extraído dos unidades al azar y se dispone a extraer la tercera, la siguiente extracción depende de cuál de las otras dos unidades ha seleccionado; no es independiente de las otras dos. Si conoce su población y sabe a quién ha extraído ya, puede predecir las características de quien extrae a continuación basándose en quién ha extraído antes. Esto es una violación de la independencia.

Muchos de nuestros métodos estadísticos dependen de la extracción de una población infinita o de la extracción con reemplazo de una población finita; la extracción sin reemplazo de una población finita induce la dependencia que he descrito anteriormente. Parece que la extracción de una muestra suficientemente pequeña (es decir, el 10% de la población) sin reemplazo se aproximaría a la extracción de una muestra con reemplazo de la misma población en términos de sus propiedades estadísticas. Probablemente por eso los autores hicieron esta recomendación.

Esta recomendación (probablemente) no se aplica a su caso. Si está haciendo un "muestreo" de una población suficientemente grande (es decir, de todos los usuarios potenciales del sitio web), seguramente sacará menos del 10% de esa población. Los datos que has recogido en tu muestra no deberían sufrir una violación de la independencia debido al problema que he descrito; si hay una violación de la independencia, está más relacionada con la segunda cláusula del pasaje (es decir, debido al diseño de tu estudio).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X