Quiero acotar la diferencia entre dos variables muestreadas de dos poblaciones diferentes. Cuando se trata de una sola población con mediciones emparejadas, es decir, "muestras emparejadas" (por ejemplo, antes del tratamiento frente a después del tratamiento), simplemente resto las mediciones emparejadas y utilizo la inferencia estadística univariante. ¿Hay alguna razón por la que no pueda hacer lo mismo con muestras independientes? Digamos que tengo dos muestras i.i.d. $X_1,X_2,...,X_n$ et $Y_1,Y_2,...,Y_m$ con sus respectivas funciones de distribución acumulativa $F_X$ et $F_Y$ . Por supuesto, si construyo un conjunto a partir de todas las posibles diferencias entre pares, el conjunto no es i.i.d.; $X_1-Y_1$ et $X_1-Y_2$ son dependientes, por ejemplo. Sin embargo, si construyo un conjunto en el que cada variable aleatoria de las dos muestras originales sólo aparece como máximo en una diferencia, como por ejemplo ${X_1-Y_1,X_2-Y_2,...,X_{min(n, m)}-Y_{min(n, m)}}$ es aquel conjunto i.i.d. con función de distribución acumulativa $F_{X-Y}$ ? En caso afirmativo, ¿puedo aplicarle la estadística univariante?
ACTUALIZACIÓN: Basándome en los dos métodos de construcción de un conjunto a partir de dos muestras independientes, he simulado 10.000 intervalos de confianza para la para la mediana delimitada por la estadística de orden y 10.000 intervalos de tolerancia de orden para la diferencia entre dos variables aleatorias normales. normales. Me ceñí a las variables normales porque podía derivar la mediana y la fdc para comprobar si un intervalo simulado concreto contenía realmente la mediana o la proporción poblacional. El método de diferencias por pares nXm dependiente produjo intervalos que contenían la mediana/proporción con mucha menos frecuencia de la que deberían tener los intervalos para muestras iid, lo que es de esperar para una muestra no iid, y el método de diferencias min(n,m) contenía la mediana/proporción con la misma frecuencia que debería tener el intervalo para muestras iid. Estoy trabajando en una forma de hacer lo mismo para las poblaciones no normales a continuación, pero está claro a partir de esto que la muestra no-iid n * m no funcionaría para los intervalos basados en estadísticas de orden.
Respuestas
¿Demasiados anuncios?Brevemente, para responder a tu primera frase: si X e Y son independientes, entonces X-Y tiene expectativa EX-EY, y sus varianzas se suman sólo debido a la independencia, por lo que X-Y tiene varianza var(X)+var(Y). Se podría acotar la diferencia mediante, por ejemplo, la desigualdad de Chebyshev, aunque estos límites suelen ser demasiado amplios para ser útiles.
Lo que propones es esencialmente un cálculo de la distribución empírica de X-Y repasando todas las combinaciones n por m de X e Y, lo que también funciona y podría ser un poco más fuerte si buscas acotar cuantiles de la diferencia, por ejemplo. Sin embargo, no estoy tan seguro de las propiedades de muestra finita del bootstrap.
Tu primer ejemplo tomando todas las combinaciones n x m es la forma "correcta" de proceder; no recomiendo el segundo método ya que esencialmente estás desechando observaciones potenciales del bootstrap. A continuación, puede encontrar el $j/(nm)$ -ésimo cuartil ordenando su $nm$ observaciones y tomando el j-ésimo valor más pequeño. En particular, el número de observaciones de cada $X_i=k$ es directamente proporcional a la densidad de probabilidad $f_X(k)$ y lo mismo para $Y_j$ y por independencia la probabilidad de observar ambas conjuntamente es proporcional al producto de los marginales. Por tanto tienen recorrer todas las combinaciones n x m para construir la población empírica de $X_i-Y_j$ . Tu segunda propuesta tiene un total de m (o n) puntos de datos; ambos métodos tienen las mismas propiedades, pero estás desechando mucha información al hacerlo. La única razón para hacerlo es si, como has comentado, tienes un emparejamiento natural, en cuyo caso la diferencia de $X_i-Y_i$ permite anular un $i$ -es decir, existe una correlación entre $X_i$ et $Y_i$ .
Además, tu uso de "iid" es un poco confuso. iid sólo tiene sentido si estás hablando de variables aleatorias; $X_1-Y_1$ et $X_1-Y_2$ no son aleatorios; se observan porque ya se tienen los datos sobre el $X_i,Y_i$ . Si usted tiene un programa que elige un azar $X_i$ et $Y_j$ y las resta, entonces esa variable $X_i-Y_j$ en los que no hay restricciones $i$ o $j$ es iid.