Dejemos que $\mathbb x=(X_1,...,X_j,...,X_k)$ por un $k-$ vector aleatorio dimensional, es decir, una colección de variables aleatorias de posición fija (funciones reales medibles).
Consideremos muchos vectores de este tipo, por ejemplo $n$ e indexar estos vectores por $i=1,...,n$ Así que, digamos
$$\mathbb x_i=(X_{1i},...,X_{ji},...,X_{ki})$$ y considerarlos como una colección llamada "la muestra", $S=(\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n)$ . Entonces llamamos a cada $k-$ vector dimensional una "observación" (aunque realmente sólo se convierte en una una vez que medimos y registramos las realizaciones de las variables aleatorias implicadas).
Tratemos primero el caso en el que existe una función de masa de probabilidad (PMF) o una función de densidad de probabilidad (PDF), y también, funciones conjuntas de este tipo. Denotemos por $f_i(\mathbb x_i),\;i=1,...,n$ la PMF conjunta o la PDF conjunta de cada vector aleatorio, y $f(\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n)$ la PMF conjunta o la PDF conjunta de todos estos vectores.
Entonces, la muestra $S$ se llama "muestra independiente", si se cumple la siguiente igualdad matemática:
$$f(\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n) = \prod_{i=1}^{n}f_i(\mathbb x_i),\;\;\; \forall (\mathbb x_1,...,\mathbb x_i,...,\mathbb x_n) \in D_S$$
donde $D_S$ es el dominio conjunto creado por el $n$ vectores/observaciones aleatorias.
Esto significa que las "observaciones" son "conjuntamente independientes", (en el sentido estadístico, o "independientes en probabilidad", como se decía antiguamente y se sigue viendo hoy en día a veces). La costumbre es llamarlos simplemente "observaciones independientes".
Obsérvese que la propiedad de independencia estadística aquí es sobre el índice $i$ es decir, entre las observaciones. No tiene relación con lo que son las relaciones probabilísticas/estadísticas entre las variables aleatorias en cada observación (en el caso general que tratamos aquí donde cada observación es multidimensional).
Obsérvese también que en los casos en que tenemos variables aleatorias continuas sin densidades, lo anterior puede expresarse en términos de las funciones de distribución.
Esto es lo que las "observaciones independientes" significa . Es una propiedad definida con precisión y expresada en términos matemáticos. Veamos algo de lo que implica .
ALGUNAS CONSECUENCIAS DE TENER OBSERVACIONES INDEPENDIENTES
A. Si dos observaciones forman parte de un grupo de observaciones conjuntamente independientes, entonces también son "independientes por pares" (estadísticamente),
$$f(\mathbb x_i,\mathbb x_m) = f_i(\mathbb x_i)f_m(\mathbb x_m)\;\;\; \forall i\neq m, \;\;\; i,m =1,...,n$$
Esto implica, a su vez, que los PMFs/PDFs condicionales son iguales a los "marginales"
$$f(\mathbb x_i \mid \mathbb x_m) = f_i(\mathbb x_i)\;\;\; \forall i\neq m, \;\;\; i,m =1,...,n$$
Esto se generaliza a muchos argumentos, condicionados o condicionantes, digamos
$$f(\mathbb x_i , \mathbb x_{\ell}\mid \mathbb x_m) = f(\mathbb x_i , \mathbb x_{\ell}),\;\;\;\; f(\mathbb x_i \mid \mathbb x_m, \mathbb x_{\ell}) = f_i(\mathbb x_i)$$
etc., siempre que los índices de la izquierda sean diferentes a los de la derecha de la línea vertical.
Esto implica que si observamos realmente una observación, las probabilidades que caracterizan a cualquier otra observación de la muestra no cambian. Por lo tanto, en lo que respecta a predicción una muestra independiente no es nuestro mejor amigo. Preferiríamos tener dependencia para que cada observación nos ayude a decir algo más sobre cualquier otra observación.
B. Por otro lado, una muestra independiente tiene un contenido informativo máximo. Cada observación, al ser independiente, conlleva una información que no puede deducirse, total o parcialmente, de ninguna otra observación de la muestra. Por lo tanto, la suma total es máxima, en comparación con cualquier muestra comparable en la que exista cierta dependencia estadística entre algunas de las observaciones. Pero ¿de qué sirve esta información si no puede ayudarnos a mejorar nuestras predicciones?
Se trata de información indirecta sobre las probabilidades que caracterizan a las variables aleatorias de la muestra. Cuanto más características comunes tengan estas observaciones (distribución de probabilidad común en nuestro caso), mejor podremos descubrirlas, si nuestra muestra es independiente.
En otras palabras, si la muestra es independiente y "idénticamente distribuido", lo que significa
$$f_i(\mathbb x_i) = f_m(\mathbb x_m) = f(\mathbb x),\;\;\; i\neq m$$
es la mejor muestra posible para obtener información no sólo sobre la distribución de probabilidad conjunta común $f(\mathbb x)$ sino también para las distribuciones marginales de las variables aleatorias que componen cada observación, digamos $f_j(x_{ji})$ .
Así que aunque $f(\mathbb x_i \mid \mathbb x_m) = f_i(\mathbb x_i)$ por lo que el poder de predicción adicional en cuanto a la realización real de $\mathbb x_i$ con una muestra independiente e idénticamente distribuida, estamos en la mejor posición para descubrir las funciones $f_i$ (o algunas de sus propiedades), es decir, las distribuciones marginales.
Por lo tanto, en lo que respecta a estimación (que a veces se utiliza como término global, pero que aquí debe diferenciarse del concepto de predicción ), una muestra independiente es nuestro "mejor amigo", si se combina con la propiedad "idénticamente distribuida".
C. También se deduce que una muestra independiente de observaciones en la que cada una se caracteriza por una distribución de probabilidad totalmente diferente, sin ninguna característica común, es tan poco valiosa como una colección de información como se puede conseguir (por supuesto, cada pieza de información por sí misma es digna, la cuestión aquí es que tomadas en conjunto no pueden ser combinadas para ofrecer algo útil). Imagínese una muestra que contenga tres observaciones: una que contenga las características (cuantitativas) de las frutas de Sudamérica, otra que contenga las montañas de Europa y una tercera que contenga la ropa de Asia. Son piezas de información bastante interesantes las tres, pero juntas como muestra no pueden hacer nada estadísticamente útil para nosotros.
Dicho de otro modo, una condición necesaria y suficiente para que una muestra independiente sea útil es que las observaciones tengan algunas características estadísticas en común. Por eso, en Estadística, la palabra "muestra" no es sinónimo de "recogida de información" en general, sino de "recogida de información sobre entidades que tienen algunas características comunes".
APLICACIÓN A LOS DATOS DE LA OPERACIÓN EJEMPLO
Respondiendo a una petición del usuario @gung, examinemos el ejemplo del OP a la luz de lo anterior. Suponemos razonablemente que estamos en una escuela con más de dos profesores y más de seis alumnos. Así que a) estamos muestreando tanto a los alumnos como a los profesores, y b) incluimos en nuestro conjunto de datos el grado que corresponde a cada combinación profesor-alumno.
En concreto, las calificaciones son no "muestreados", son una consecuencia del muestreo que hicimos de profesores y alumnos. Por lo tanto, es razonable tratar la variable aleatoria $G$ (=grado) como "variable dependiente", mientras que los alumnos ( $P$ ) y los profesores $T$ son "variables explicativas" (no todo posibles variables explicativas, sólo algunos ). Nuestra muestra consta de seis observaciones que escribimos explícitamente, $S = (\mathbb s_1, ..., \mathbb s_6)$ como
\begin{align} \mathbb s_1 =(T_1, P_1, G_1) \\ \mathbb s_2 =(T_1, P_2, G_2) \\ \mathbb s_3 =(T_1, P_3, G_3) \\ \mathbb s_3 =(T_2, P_4, G_4) \\ \mathbb s_4 =(T_2, P_5, G_5) \\ \mathbb s_5 =(T_2, P_6, G_6) \\ \end{align}
Bajo el supuesto declarado de que "los alumnos no se influyen mutuamente", podemos considerar el $P_i$ variables como distribuidas de forma independiente. Bajo el supuesto no declarado de que "todos los demás factores" que pueden influir en el Grado son independientes entre sí, también podemos considerar el $G_i$ las variables sean independientes unas de otras.
Finalmente, bajo el supuesto no establecido de que los profesores no se influyen entre sí, podemos considerar las variables $T_1, T_2$ como estadísticamente independientes entre sí.
Pero independientemente de de qué suposición causal/estructural haremos respecto a la relación entre profesores y alumnos El hecho es que las observaciones $\mathbb s_1, \mathbb s_2, \mathbb s_3$ contienen la misma variable aleatoria ( $T_1$ ), mientras que las observaciones $\mathbb s_4, \mathbb s_5, \mathbb s_6$ también contiene la misma variable aleatoria ( $T_2$ ).
Nótese cuidadosamente la distinción entre "la misma variable aleatoria" y "dos variables aleatorias distintas que tienen distribuciones idénticas".
Por lo tanto, incluso si asumimos que "los profesores NO influyen en los alumnos", nuestra muestra, tal y como se ha definido anteriormente, no es una muestra independiente, porque $\mathbb s_1, \mathbb s_2, \mathbb s_3$ son estadísticamente dependientes a través de $T_1$ , mientras que $\mathbb s_4, \mathbb s_5, \mathbb s_6$ son estadísticamente dependientes a través de $T_2$ .
Supongamos ahora que excluir la variable aleatoria "profesor" de nuestra muestra. Es la muestra (Alumno, Grado) de seis observaciones, una muestra independiente? En este caso, las suposiciones que haremos sobre cuál es la relación estructural entre profesores, alumnos y calificaciones sí importan.
En primer lugar, ¿los profesores directamente afectar a la variable aleatoria "Calificación", a través, quizás, de diferentes "actitudes/estilos de calificación"? Por ejemplo $T_1$ puede ser una "calificación dura" mientras que $T_2$ puede que no. En tal caso "no ver" la variable "Profesor" no hace que la muestra sea independiente, porque ahora es la $G_1, G_2, G_3$ que son dependientes, debido a una fuente de influencia común, $T_1$ (y análogamente para los otros tres).
Pero digamos que los profesores son idénticos en ese aspecto. Entonces, bajo el supuesto declarado "los profesores influyen en los alumnos", tenemos de nuevo que las tres primeras observaciones son dependientes entre sí, porque los profesores influyen en los alumnos que influyen en las calificaciones, y llegamos al mismo resultado, aunque de forma indirecta en este caso (y lo mismo para los otros tres). Así que, de nuevo, la muestra no es independiente.
EL CASO DEL GÉNERO
Ahora, hagamos la muestra de seis observaciones de (Alumno, Grado) "condicionalmente independiente con respecto al profesor" (ver otras respuestas) suponiendo que los seis alumnos tienen en realidad el mismo profesor. Pero además incluyamos en la muestra la variable aleatoria " $Ge$ =Género" que tradicionalmente toma dos valores ( $M,F$ ), mientras que recientemente ha comenzado a tomar más. Nuestra muestra de seis observaciones, una vez más tridimensional, es ahora
\begin{align} \mathbb s_1 =(Ge_1, P_1, G_1) \\ \mathbb s_2 =(Ge_2, P_2, G_2) \\ \mathbb s_3 =(Ge_3, P_3, G_3) \\ \mathbb s_3 =(Ge_4, P_4, G_4) \\ \mathbb s_4 =(Ge_5, P_5, G_5) \\ \mathbb s_5 =(Ge_6, P_6, G_6) \\ \end{align}
Obsérvese cuidadosamente que lo que incluimos en la descripción de la muestra en cuanto a Género, es no el valor real que toma para cada alumno, pero la variable aleatoria "Género" . Vuelve a mirar al principio de esta larguísima respuesta: la Muestra no se define como una colección de números (o valores fijos numéricos o no en general), sino como una colección de variables aleatorias (es decir, de funciones).
Ahora bien, ¿el género de un alumno influye (estructural o estadísticamente) en el género del otro? Podríamos argumentar razonablemente que no. Así que, desde ese punto de vista, el $Ge_i$ las variables son independientes. ¿El género del alumno $1$ , $Ge_1$ afecta de alguna otra manera directamente a algún otro alumno ( $P_2, P_3,...$ )? Hmm, hay teorías educativas que batallan, si no recuerdo mal, sobre el asunto. Así que si suponemos que sí no entonces se va otra posible fuente de dependencia entre las observaciones. Por último, ¿influye directamente el sexo de un alumno en las notas de otro? si argumentamos que no, obtenemos una muestra independiente (condicionado a que todos los alumnos tengan el mismo profesor).