Esto puede sonar demasiado general, pero tengo un problema para entender qué se supone que significa una distribución empírica. Si tomo su definición formal: Pn(A):=1n∑ni=1I(Xi∈A)Pn(A):=1n∑ni=1I(Xi∈A) ¿Cómo lo interpreto? ¿Alguien tiene un ejemplo "práctico" que respalde su significado? Me parece demasiado abstracto.
Respuestas
¿Demasiados anuncios?Un modelo físico de la distribución de un valor aleatorio XX es escribir todos los valores posibles de XX en trozos de papel (repitiendo los valores según sea necesario para darles mayores probabilidades) y ponerlos en una caja, mezclarlos bien y sacar uno. Las probabilidades son sólo las proporciones de la caja: la probabilidad de cualquier conjunto AA de los posibles valores de XX se encuentra contando los billetes con valores en AA y dividiendo por el total de la caja.
La FED describe la variable aleatoria que se obtiene cuando se toma toda la muestra -es decir, todos los trozos de papel que se han extraído para modelar un conjunto de observaciones- y se introducen en una caja vacía.
Una forma elegante de calcular las probabilidades de la FED es la siguiente. Dado un conjunto AA cuya probabilidad desea conocer, examine cada billete de la caja (es decir, cada observación) y escriba un "1" si el valor de ese billete está en AA y en caso contrario escriba un "0". (El símbolo de este procedimiento es " I(Xi∈A)I(Xi∈A) .") Sumando estos valores se cuenta el número de entradas con valor en AA . Dividir por el número total de entradas, nn para calcular la proporción. Eso es todo lo que hace la fórmula de la pregunta.
La FED tiene aplicaciones prácticas en simulaciones, pruebas de permutación y, sobre todo, en métodos de remuestreo . La intuición es que si sus observaciones son representativas de la población original (es decir, del conjunto de billetes de la caja original), entonces puede estudiar la FED para aprender a hacer inferencias sobre el contenido de una caja basándose en una muestra de la misma.
Como ejemplo, supongamos que recibe 40 respuestas "no" y 60 "sí" de 100 respuestas a una pregunta formulada a una muestra aleatoria de personas. Dado que la muestra es aleatoria, usted sabe que es incierta y, por tanto, le gustaría estimar en qué medida la división 40:60 podría coincidir con la proporción real de opiniones dentro de toda la población. Para averiguarlo, pon tus 100 papelitos en una caja que, por tanto, contenga un 40% de no y un 60% de sí (ésa es la distribución empírica). Tome una muestra de esta caja ( con la sustitución, para que su contenido sea el mismo de un sorteo a otro) 100 veces. Esto emula su procedimiento de muestreo original, pero debido a la variación del azar es probable que produzca un resultado diferente. Repita este muestreo -con un ordenador- miles de veces para ver cuánto varían los resultados. Así se obtiene una estimación de la variabilidad por remuestreo de su muestra real.
Lo único que ocurre es que se está definiendo una medida de probabilidad (aleatoria) que asigna a cada AA la probabilidad 1n∑ni=1I(Xi∈A)1n∑ni=1I(Xi∈A) que es la proporción de observaciones que entran en el conjunto AA . Por ejemplo, imagine que tengo una muestra aleatoria de una población (1,4,5,2,3)(1,4,5,2,3) y que AA sea el conjunto de enteros pares. Entonces la distribución de probabilidad empírica asigna la probabilidad 2525 a AA porque 2525 's de las observaciones son pares.
Es un animal interesante. Se comprueba fácilmente que para los fijos AA esto produce un estimador insesgado de P(X1∈A)P(X1∈A) y que como n→∞n→∞ se obtiene la convergencia en probabilidad. Con más esfuerzo se puede reforzar este tipo de cosas de forma considerable. Las propiedades de convergencia son bastante buenas; véase, por ejemplo, el teorema de Glivenko-Cantelli, que se refiere a la función de distribución empírica estrechamente relacionada, y la desigualdad DKW, que da una tasa de convergencia para la función de distribución empírica a la función de distribución verdadera.
En el lenguaje de programación R, el comando rnorm(10) debería simular una muestra aleatoria de tamaño 10 de una distribución normal estándar. Así que la "curva en forma de campana" es la distribución de probabilidad de la que se toma la muestra. Así que hago esto:
sort(rnorm(10))
[1] -1.41555384 -0.59325095 -0.41850747 -0.39489145 -0.29435177 0.04814372
[7] 0.16891370 0.48928250 0.96755695 1.88467730
La distribución empírica es entonces la distribución de una variable aleatoria que es igual a −1.41555384−1.41555384 con probabilidad 1/101/10 y a −0.59325095−0.59325095 con probabilidad 1/101/10 y así sucesivamente.
Las distribuciones empíricas intervienen en la Prueba de Kolmogorov-Smirnov y el Prueba de Lilliefors (entre otras cosas).