2 votos

¿Es I.I.D. la función de muestras aleatorias de dos poblaciones independientes?

Quiero acotar la diferencia entre dos variables muestreadas de dos poblaciones diferentes. Cuando se trata de una sola población con mediciones emparejadas, es decir, "muestras emparejadas" (por ejemplo, antes del tratamiento frente a después del tratamiento), simplemente resto las mediciones emparejadas y utilizo la inferencia estadística univariante. ¿Hay alguna razón por la que no pueda hacer lo mismo con muestras independientes? Digamos que tengo dos muestras i.i.d. $X_1,X_2,...,X_n$ et $Y_1,Y_2,...,Y_m$ con sus respectivas funciones de distribución acumulativa $F_X$ et $F_Y$ . Por supuesto, si construyo un conjunto a partir de todas las posibles diferencias entre pares, el conjunto no es i.i.d.; $X_1-Y_1$ et $X_1-Y_2$ son dependientes, por ejemplo. Sin embargo, si construyo un conjunto en el que cada variable aleatoria de las dos muestras originales sólo aparece como máximo en una diferencia, como por ejemplo ${X_1-Y_1,X_2-Y_2,...,X_{min(n, m)}-Y_{min(n, m)}}$ es aquel conjunto i.i.d. con función de distribución acumulativa $F_{X-Y}$ ? En caso afirmativo, ¿puedo aplicarle la estadística univariante?
ACTUALIZACIÓN: Basándome en los dos métodos de construcción de un conjunto a partir de dos muestras independientes, he simulado 10.000 intervalos de confianza para la para la mediana delimitada por la estadística de orden y 10.000 intervalos de tolerancia de orden para la diferencia entre dos variables aleatorias normales. normales. Me ceñí a las variables normales porque podía derivar la mediana y la fdc para comprobar si un intervalo simulado concreto contenía realmente la mediana o la proporción poblacional. El método de diferencias por pares nXm dependiente produjo intervalos que contenían la mediana/proporción con mucha menos frecuencia de la que deberían tener los intervalos para muestras iid, lo que es de esperar para una muestra no iid, y el método de diferencias min(n,m) contenía la mediana/proporción con la misma frecuencia que debería tener el intervalo para muestras iid. Estoy trabajando en una forma de hacer lo mismo para las poblaciones no normales a continuación, pero está claro a partir de esto que la muestra no-iid n * m no funcionaría para los intervalos basados en estadísticas de orden.

2voto

Josh Pearce Puntos 2288

En general, si una familia de $X_i$ son $iid$ entonces también lo son $f(X_i)$ . En tu caso, estás definiendo una nueva variable aleatoria $Z_i:=X_i-Y_i$ en cuyo caso $Z_i$ formar un $iid$ secuencia.

1voto

sitrucj Puntos 21

Brevemente, para responder a tu primera frase: si X e Y son independientes, entonces X-Y tiene expectativa EX-EY, y sus varianzas se suman sólo debido a la independencia, por lo que X-Y tiene varianza var(X)+var(Y). Se podría acotar la diferencia mediante, por ejemplo, la desigualdad de Chebyshev, aunque estos límites suelen ser demasiado amplios para ser útiles.

Lo que propones es esencialmente un cálculo de la distribución empírica de X-Y repasando todas las combinaciones n por m de X e Y, lo que también funciona y podría ser un poco más fuerte si buscas acotar cuantiles de la diferencia, por ejemplo. Sin embargo, no estoy tan seguro de las propiedades de muestra finita del bootstrap.

Tu primer ejemplo tomando todas las combinaciones n x m es la forma "correcta" de proceder; no recomiendo el segundo método ya que esencialmente estás desechando observaciones potenciales del bootstrap. A continuación, puede encontrar el $j/(nm)$ -ésimo cuartil ordenando su $nm$ observaciones y tomando el j-ésimo valor más pequeño. En particular, el número de observaciones de cada $X_i=k$ es directamente proporcional a la densidad de probabilidad $f_X(k)$ y lo mismo para $Y_j$ y por independencia la probabilidad de observar ambas conjuntamente es proporcional al producto de los marginales. Por tanto tienen recorrer todas las combinaciones n x m para construir la población empírica de $X_i-Y_j$ . Tu segunda propuesta tiene un total de m (o n) puntos de datos; ambos métodos tienen las mismas propiedades, pero estás desechando mucha información al hacerlo. La única razón para hacerlo es si, como has comentado, tienes un emparejamiento natural, en cuyo caso la diferencia de $X_i-Y_i$ permite anular un $i$ -es decir, existe una correlación entre $X_i$ et $Y_i$ .

Además, tu uso de "iid" es un poco confuso. iid sólo tiene sentido si estás hablando de variables aleatorias; $X_1-Y_1$ et $X_1-Y_2$ no son aleatorios; se observan porque ya se tienen los datos sobre el $X_i,Y_i$ . Si usted tiene un programa que elige un azar $X_i$ et $Y_j$ y las resta, entonces esa variable $X_i-Y_j$ en los que no hay restricciones $i$ o $j$ es iid.

0voto

Romme Puntos 787

El conjunto de diferencias definido será i.i.d. En cuanto a la distribución de las diferencias, puede estimarla utilizando la fdc empírica, de forma no paramétrica, si no conoce las distribuciones subyacentes. Si X e Y no están excesivamente sesgadas, te dará una buena aproximación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X