¿Cómo encontramos información sobre la distribución de una variable en presencia de dependencia entre nuestras observaciones? Esta dependencia proviene de medir la variable en el mismo grupo de sujetos varias veces.
Estos son dos ejemplos de lo que tengo en mente:
-
Supongamos que tenemos una página web para que los clientes compren productos. Nos interesa conocer la distribución del tiempo que pasan los clientes en cada visita. Un cliente puede volver al sitio muchas veces. Estas visitas se consideran observaciones distintas. La segunda visita de un cliente puede deberse a una promoción anterior que haya visto en el sitio. Por lo tanto, nuestras observaciones no son i.i.d. (o una muestra aleatoria simple).
-
En un ensayo clínico, en el que, por ejemplo, se miden los niveles de glucosa en sangre de los sujetos en intervalos de 3 minutos y estamos interesados en su "valor típico" en el intervalo de 20 minutos después del ejercicio. De nuevo, los valores dependen de cada sujeto.
Mi respuesta ingenua es reducir todas las observaciones del mismo sujeto a un valor, y observar la distribución de estos valores, pero estoy seguro de que hay una forma mejor de hacerlo.
Actualización: Tras leer las respuestas de @PeterFlom y @NickCox, me he dado cuenta de que mi pregunta era algo vaga y necesitaba añadir más detalles.
Supongamos que quiero hallar la media de esta distribución. La ley débil de los grandes números requiere variables i.i.d. (probablemente exista una versión más general, digamos para variables intercambiables, pero sigue sin ser una condición válida en las situaciones que he mencionado antes). ¿Cómo se puede hallar el "tiempo medio que un usuario pasa en el sitio web por visita"?
Agradezco cualquier sugerencia, pero me interesan más las respuestas que tengan alguna justificación teórica.
Actualización 2:
Esta es la formulación matemática de mi pregunta. Espero que aclare las ambigüedades del enunciado:
Supongamos que $N$ sujetos, hemos hecho observaciones:
- Para el sujeto 1, $X_{1,1},\ldots,X_{1,i_1}$ .
- Para el sujeto 2, $X_{2,1},\ldots,X_{2,i_2}$ .
- ...
- Para el sujeto N, $X_{N,1},\ldots,X{N,i_N}$ .
(Por lo tanto, el número de observaciones para los distintos sujetos no es el mismo.) Todos los $X_{i,j}$ tienen la misma distribución, pero no son necesariamente independientes.
Mi pregunta es, si mi objetivo es estimar $E(X_{i,j})$ ¿Cuál sería el mejor estimador? No creo que la respuesta $$\frac{\sum_{i,j}X_{i,j}}{i_1+\cdots+i_N}$$ es correcto, porque la ley de los grandes números no se aplica aquí.
Mi respuesta es $$\frac{\sum_i\frac{\sum_j X_{i,j}}{i_j}}{N}$$ pero como mencioné antes, siento que debe haber algo mejor.