22 votos

¿Son sinónimos "muestra aleatoria" y "variable aleatoria iid"?

Me ha costado entender el significado de "muestra aleatoria" y de "variable aleatoria iid". Intenté encontrar el significado en varias fuentes, pero cada vez estaba más confuso. Estoy publicando aquí lo que intenté y llegué a saber:

Degroot's Probability & Statistics dice:

Muestras aleatorias / i.i.d. / Tamaño de la muestra : Consideremos una distribución de probabilidad dada en la recta real que puede representarse mediante una f.p. o una f.d.p. $f$ . Se dice que $n$ variables aleatorias $X_1 , . . . , X_n$ forman una muestra aleatoria de esta distribución si estas variables aleatorias son independientes y la f.p. marginal o f.d.p. de cada una de ellas es $f$ . También se dice que tales variables aleatorias son independientes e idénticamente distribuidas, abreviado i.i.d. Nos referimos al número n de variables aleatorias como el tamaño de la muestra.

Pero otro libro de estadística que tengo dice:

En un muestreo aleatorio, garantizamos que cada unidad individual de la población tiene la misma oportunidad (probabilidad) de ser seleccionada.

Entonces, tengo la sensación de que los i.i.d. son elementos que construyen la muestra aleatoria, y el procedimiento para tener una muestra aleatoria es el muestreo aleatorio. ¿Estoy en lo cierto?

P.D.: Estoy muy confuso sobre este tema, por lo que agradeceré una respuesta elaborada. Muchas gracias.

12voto

bessman Puntos 2514

No dices cuál es el otro libro de estadística, pero supongo que se trata de un libro (o sección) sobre muestreo de población finita .

Cuando se muestrean variables aleatorias, es decir, cuando se considera un conjunto $X_1,\dots,X_n$ de $n$ variables aleatorias, sabes que si son independientes, $f(x_1,\dots,x_n)=f(x_1)\cdots f(x_n)$ e idénticamente distribuidos en particular $E(X_i)=\mu$ y $\text{Var}(X_i)=\sigma^2$ para todos $i$ entonces: $$\overline{X}=\frac{\sum_i X_i}{n},\quad E(\overline{X})=\mu,\quad \text{Var}(\overline{X})=\frac{\sigma^2}{n}$$ donde $\sigma^2$ es el segundo momento central.

El muestreo de una población finita es algo diferente. Si la población es de tamaño $N$ en el muestreo sin sustitución hay $\binom{N}{n}$ posible muestras $s_i$ de tamaño $n$ y son equiprobables: $$p(s_i)=\frac{1}{\binom{N}{n}}\quad\forall i=1,\dots,\binom{N}{n}$$ Por ejemplo, si $N=5$ y $n=3$ el espacio muestral es $\{s_1,\dots,s_{10}\}$ y las muestras posibles son: $$\begin{gather}s_1=\{1,2,3\},s_2=\{1,2,4\},s_3=\{1,2,5\},s_4=\{1,3,4\},s_5=\{1,3,5\},\\ s_6=\{1,4,5\},s_7=\{2,3,4\},s_8=\{2,3,5\},s_9=\{2,4,5\},s_{10}=\{3,4,5\}\end{gather}$$ Si se cuenta el número de apariciones de cada individuo, se puede ver que son seis, es decir, cada individuo tiene la misma probabilidad de ser seleccionado (6/10). Por tanto, cada $s_i$ es una muestra aleatoria según la segunda definición. A grandes rasgos, no es una muestra aleatoria i.i.d. porque los individuos no son variables aleatorias: se puede estimar sistemáticamente $E[X]$ por una media muestral, sino que nunca conocerá su valor exacto, pero puede conocer la media poblacional exacta si $n=N$ (repito: más o menos). ${}^1$

Sea $\mu$ sea alguna media de polulación (altura media, renta media, ...). Cuando $n<N$ puede estimar $\mu$ como en el muestreo de variables aleatorias: $$\overline{y}_s=\sum_{i=1}^n y_i,\quad E(\overline{y}_s)=\mu$$ pero la varianza media muestral es diferente: $$\text{Var}(\overline{y}_s)=\frac{\tilde\sigma^2}{n}\left(1-\frac{n}{N}\right)$$ donde $\tilde\sigma^2$ es la cuasivarianza de la población: $\frac{\sum_{i=1}^N(y_i-\overline{y})^2}{N-1}$ . Factor $(1-n/N)$ suele denominarse " factor de corrección de población finita ".

Este es un ejemplo rápido de cómo una (variable aleatoria) muestra aleatoria i.i.d. y una (población finita) pueden diferir. Estadísticas inferencia estadística se trata principalmente de muestreo de variables aleatorias, muestreo teoría es sobre finito muestreo de poblaciones finitas.


${}^1$ Supongamos que fabrica bombillas y desea conocer su vida media vida media. Su "población" es sólo teórica o virtual, al menos si usted sigue fabricando bombillas. Así que tiene que modelizar una generación de datos proceso e interpretar un conjunto de bombillas como una muestra (variable aleatoria). Digamos que encuentras una caja de 1000 bombillas y quieres saber su vida media. vida media. Puede seleccionar un pequeño conjunto de bombillas (una muestra de población finita), pero también puede seleccionar todas las bombillas. finita), pero también puede seleccionarlas todas. Si selecciona una muestra pequeña, esto no transforma las bombillas en variables aleatorias: la variable aleatoria es generada por ti, ya que la elección entre "todas" y "un pequeño conjunto" depende de ti. usted. Sin embargo, cuando una población finita es muy grande (por ejemplo, la población de tu país país), cuando la elección de "todos" no es viable, la segunda situación es mejor como la primera.

6voto

Alex Angelico Puntos 484

No les aburriré con definiciones y fórmulas probabilísticas, que pueden encontrar fácilmente en cualquier libro de texto (o aquí es un buen punto de partida)

Pensándolo de forma intuitiva, una muestra aleatoria es un conjunto de valores aleatorios. En general, cada uno de los valores puede tener una distribución idéntica o diferente. $i.i.d.$ es un caso especial de muestra aleatoria, en la que cada valor procede de la misma distribución que los demás y su valor no influye en los demás valores. La independencia se refiere a $how$ los valores se generaron

$i.i.d$ ejemplo: saca una carta al azar de una baraja y devuélvela (hazlo 5 veces). Obtendrá 5 valores realizados (tarjetas). Cada uno de estos valores procede de una distribución uniforme (existe la misma probabilidad de obtener cada uno de los resultados) y cada extracción es independiente de las demás (es decir, el hecho de obtener un as de picas en la primera extracción, no influye en modo alguno en el resultado que pueda obtener en otras extracciones).

no $i.i.d.$ ejemplo: Ahora haz lo mismo, pero sin devolver la carta al mazo (espero que ya notes la diferencia). De nuevo tendrás 5 valores realizados (cartas) después de hacer esto. Pero claramente son dependientes (el hecho de que saques el as de picas en la primera extracción, significa que no tendrás oportunidad de entrar en la 2ª extracción).

1voto

Gigi04440 Puntos 26

Una Variable Aleatoria normalmente escrita X, es una variable cuyos valores posibles son resultados numéricos de un fenómeno aleatorio. El fenómeno aleatorio puede producir resultados que tienen valores numéricos capturados por la variable aleatoria - por ejemplo, el número de caras en 10 lanzamientos de una moneda o ingresos / alturas, etc en una muestra - pero eso no es necesario .
En términos más generales, una variable aleatoria es una función que asigna resultados aleatorios a valores numéricos. Por ejemplo, cada día puede ser soleado, nublado o lluvioso. Podemos definir una variable aleatoria que tome el valor 1 si llueve, 2 si está nublado y 3 si hace sol. El dominio de una variable aleatoria es el conjunto de resultados posibles.
Para establecer una Variable Aleatoria debe existir un proceso o experimento que esté asociado a posibles resultados que no puedan predecirse con certeza.

Pasemos ahora a la cuestión de la independencia. Dos Variables Aleatorias son independientes si el valor de una de ellas no afecta a la PDF de la otra. No revisamos nuestras predicciones respecto a las probabilidades de diferentes valores de una variable cuando sabemos algo sobre la otra variable. Por lo tanto, en caso de independencia, las FDP posteriores son idénticas a las FDP previas. Por ejemplo, cuando lanzamos una moneda sin sesgo repetidamente, la información que tenemos sobre el resultado de los 5 lanzamientos anteriores no afecta a nuestra predicción sobre el lanzamiento actual, siempre será 0,5. Sin embargo, si el sesgo de la moneda es desconocido y se modela como una Variable Aleatoria, entonces el resultado de los 5 lanzamientos anteriores afecta a nuestras predicciones sobre el lanzamiento actual porque nos permite hacer inferencias sobre el sesgo desconocido de la moneda. En ese caso las Variables Aleatorias que capturan el número de Caras en una secuencia de n lanzamientos son dependientes y no independientes.

Pasemos ahora a la cuestión del muestreo. El propósito del Muestreo es informarnos sobre las propiedades de una distribución subyacente que no es conocida y debe ser inferida. Recordemos que una Distribución se refiere a la probabilidad relativa de los posibles resultados en el Espacio Muestral (que también puede ser un Universo Condicional). Por tanto, cuando tomamos una muestra, elegimos un número finito de resultados del espacio muestral y reproducimos el espacio muestral en una escala más pequeña y manejable. La igualdad de probabilidad se refiere al proceso de muestreo, no a la probabilidad de los resultados de la muestra. La igualdad de probabilidad implica que la muestra reflejará las proporciones de los resultados del espacio muestral original. Por ejemplo, si preguntamos a 10.000 personas si han sido detenidas alguna vez, es probable que la muestra final no sea representativa de la población (el espacio muestral), ya que las personas que habrían sido detenidas podrían negarse a responder, por lo que la proporción de resultados posibles (detenidos y no detenidos) diferirá entre nuestra muestra y la población por razones sistemáticas. O si elegimos un barrio concreto para realizar una encuesta, los resultados no serán representativos del conjunto de la ciudad. Así pues, el muestreo de igual probabilidad implica que no hay razones sistemáticas (aparte de la pura aleatoriedad) que nos hagan creer que las proporciones de posibles resultados en nuestra muestra son diferentes de las proporciones de resultados en el espacio población/muestra.

-1voto

user58986 Puntos 23

Una muestra aleatoria es una realización de una secuencia de variables aleatorias. Estas variables aleatorias pueden ser i.i.d. o no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X