1 votos

Encontrar la distribución cuando las observaciones son dependientes

¿Cómo encontramos información sobre la distribución de una variable en presencia de dependencia entre nuestras observaciones? Esta dependencia proviene de medir la variable en el mismo grupo de sujetos varias veces.

Estos son dos ejemplos de lo que tengo en mente:

  1. Supongamos que tenemos una página web para que los clientes compren productos. Nos interesa conocer la distribución del tiempo que pasan los clientes en cada visita. Un cliente puede volver al sitio muchas veces. Estas visitas se consideran observaciones distintas. La segunda visita de un cliente puede deberse a una promoción anterior que haya visto en el sitio. Por lo tanto, nuestras observaciones no son i.i.d. (o una muestra aleatoria simple).

  2. En un ensayo clínico, en el que, por ejemplo, se miden los niveles de glucosa en sangre de los sujetos en intervalos de 3 minutos y estamos interesados en su "valor típico" en el intervalo de 20 minutos después del ejercicio. De nuevo, los valores dependen de cada sujeto.

Mi respuesta ingenua es reducir todas las observaciones del mismo sujeto a un valor, y observar la distribución de estos valores, pero estoy seguro de que hay una forma mejor de hacerlo.


Actualización: Tras leer las respuestas de @PeterFlom y @NickCox, me he dado cuenta de que mi pregunta era algo vaga y necesitaba añadir más detalles.

Supongamos que quiero hallar la media de esta distribución. La ley débil de los grandes números requiere variables i.i.d. (probablemente exista una versión más general, digamos para variables intercambiables, pero sigue sin ser una condición válida en las situaciones que he mencionado antes). ¿Cómo se puede hallar el "tiempo medio que un usuario pasa en el sitio web por visita"?

Agradezco cualquier sugerencia, pero me interesan más las respuestas que tengan alguna justificación teórica.


Actualización 2:

Esta es la formulación matemática de mi pregunta. Espero que aclare las ambigüedades del enunciado:

Supongamos que $N$ sujetos, hemos hecho observaciones:

  • Para el sujeto 1, $X_{1,1},\ldots,X_{1,i_1}$ .
  • Para el sujeto 2, $X_{2,1},\ldots,X_{2,i_2}$ .
  • ...
  • Para el sujeto N, $X_{N,1},\ldots,X{N,i_N}$ .

(Por lo tanto, el número de observaciones para los distintos sujetos no es el mismo.) Todos los $X_{i,j}$ tienen la misma distribución, pero no son necesariamente independientes.

Mi pregunta es, si mi objetivo es estimar $E(X_{i,j})$ ¿Cuál sería el mejor estimador? No creo que la respuesta $$\frac{\sum_{i,j}X_{i,j}}{i_1+\cdots+i_N}$$ es correcto, porque la ley de los grandes números no se aplica aquí.

Mi respuesta es $$\frac{\sum_i\frac{\sum_j X_{i,j}}{i_j}}{N}$$ pero como mencioné antes, siento que debe haber algo mejor.

2voto

Zizzencs Puntos 1358

Depende de lo que quiera hacer y del motivo por el que busque la distribución. Si es puramente para describir la muestra, hay varias posibilidades:

Basta con mirar las primeras visitas. A continuación, podría hallar la media, etc., o (creo que sería más útil) dibujar un gráfico de densidad y un gráfico de bandas o de cajas (en función de N) y posiblemente también otros gráficos.

Observe todas las visitas en un gráfico de densidad, con líneas diferentes para la primera, segunda y tercera visitas, o utilice gráficos de cajas paralelos.

Observe sólo a las personas que hayan realizado al menos N visitas y, a continuación, examine su primera, segunda... enésima visita, utilizando gráficos similares a los del caso anterior.

Mira pares de visitas, quizás utilizando una matriz de gráficos cuantil-cuantil, o quizás una matriz de gráficos de dispersión.

Mira tendencia a lo largo del tiempo, con una línea para cada persona (si el N es relativamente pequeño).

y probablemente un montón de otras cosas en las que no estoy pensando en este momento.

Si desea utilizar estos datos para la modelización, háganoslo saber.

2voto

Nick Cox Puntos 22819

Estás mezclando cuestiones que normalmente están separadas. La distribución de cualquier cosa para un cliente determinado es una distribución, independientemente de que exista algún tipo de dependencia, por ejemplo en el tiempo. Lo mismo ocurre con un paciente en un ensayo clínico. Si reduces cualquiera de las dos distribuciones a un único valor, estás desechando información. La información obtenida agrupando valores de resumen de distintos clientes o pacientes no será la misma información, salvo por accidente.

Tenga en cuenta que su propuesta significaría que nunca trabajaría con series temporales a menos que estuviera seguro de que son puro ruido, pero normalmente podemos aprender mucho más de una serie temporal que de su media.

Es de suponer que usted piensa que la dependencia es una molestia porque ha leído a menudo sobre supuestos de independencia, en particular para la inferencia. Pero la respuesta a cualquier molestia de este tipo no suele ser desechar la información. Lo más habitual es utilizar métodos que hagan suposiciones más precisas, como los métodos de series temporales cuando la depe [ ]

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X