16 votos

¿Qué representa una distribución empírica?

Esto puede sonar demasiado general, pero tengo un problema para entender qué se supone que significa una distribución empírica. Si tomo su definición formal: Pn(A):=1nni=1I(XiA)Pn(A):=1nni=1I(XiA) ¿Cómo lo interpreto? ¿Alguien tiene un ejemplo "práctico" que respalde su significado? Me parece demasiado abstracto.

14voto

Jon Clegg Puntos 661

Un modelo físico de la distribución de un valor aleatorio XX es escribir todos los valores posibles de XX en trozos de papel (repitiendo los valores según sea necesario para darles mayores probabilidades) y ponerlos en una caja, mezclarlos bien y sacar uno. Las probabilidades son sólo las proporciones de la caja: la probabilidad de cualquier conjunto AA de los posibles valores de XX se encuentra contando los billetes con valores en AA y dividiendo por el total de la caja.

La FED describe la variable aleatoria que se obtiene cuando se toma toda la muestra -es decir, todos los trozos de papel que se han extraído para modelar un conjunto de observaciones- y se introducen en una caja vacía.

Una forma elegante de calcular las probabilidades de la FED es la siguiente. Dado un conjunto AA cuya probabilidad desea conocer, examine cada billete de la caja (es decir, cada observación) y escriba un "1" si el valor de ese billete está en AA y en caso contrario escriba un "0". (El símbolo de este procedimiento es " I(XiA)I(XiA) .") Sumando estos valores se cuenta el número de entradas con valor en AA . Dividir por el número total de entradas, nn para calcular la proporción. Eso es todo lo que hace la fórmula de la pregunta.

La FED tiene aplicaciones prácticas en simulaciones, pruebas de permutación y, sobre todo, en métodos de remuestreo . La intuición es que si sus observaciones son representativas de la población original (es decir, del conjunto de billetes de la caja original), entonces puede estudiar la FED para aprender a hacer inferencias sobre el contenido de una caja basándose en una muestra de la misma.

Como ejemplo, supongamos que recibe 40 respuestas "no" y 60 "sí" de 100 respuestas a una pregunta formulada a una muestra aleatoria de personas. Dado que la muestra es aleatoria, usted sabe que es incierta y, por tanto, le gustaría estimar en qué medida la división 40:60 podría coincidir con la proporción real de opiniones dentro de toda la población. Para averiguarlo, pon tus 100 papelitos en una caja que, por tanto, contenga un 40% de no y un 60% de sí (ésa es la distribución empírica). Tome una muestra de esta caja ( con la sustitución, para que su contenido sea el mismo de un sorteo a otro) 100 veces. Esto emula su procedimiento de muestreo original, pero debido a la variación del azar es probable que produzca un resultado diferente. Repita este muestreo -con un ordenador- miles de veces para ver cuánto varían los resultados. Así se obtiene una estimación de la variabilidad por remuestreo de su muestra real.

8voto

JiminyCricket Puntos 143

La distribución empírica es la distribución que se obtendría si se tomara una muestra de la misma en lugar de toda la población.

6voto

GalmWing Puntos 201

Lo único que ocurre es que se está definiendo una medida de probabilidad (aleatoria) que asigna a cada AA la probabilidad 1nni=1I(XiA)1nni=1I(XiA) que es la proporción de observaciones que entran en el conjunto AA . Por ejemplo, imagine que tengo una muestra aleatoria de una población (1,4,5,2,3)(1,4,5,2,3) y que AA sea el conjunto de enteros pares. Entonces la distribución de probabilidad empírica asigna la probabilidad 2525 a AA porque 2525 's de las observaciones son pares.

Es un animal interesante. Se comprueba fácilmente que para los fijos AA esto produce un estimador insesgado de P(X1A)P(X1A) y que como nn se obtiene la convergencia en probabilidad. Con más esfuerzo se puede reforzar este tipo de cosas de forma considerable. Las propiedades de convergencia son bastante buenas; véase, por ejemplo, el teorema de Glivenko-Cantelli, que se refiere a la función de distribución empírica estrechamente relacionada, y la desigualdad DKW, que da una tasa de convergencia para la función de distribución empírica a la función de distribución verdadera.

1voto

Michael Hardy Puntos 128804

En el lenguaje de programación R, el comando rnorm(10) debería simular una muestra aleatoria de tamaño 10 de una distribución normal estándar. Así que la "curva en forma de campana" es la distribución de probabilidad de la que se toma la muestra. Así que hago esto:

sort(rnorm(10))
[1] -1.41555384 -0.59325095 -0.41850747 -0.39489145 -0.29435177 0.04814372
[7] 0.16891370 0.48928250 0.96755695 1.88467730

La distribución empírica es entonces la distribución de una variable aleatoria que es igual a 1.415553841.41555384 con probabilidad 1/101/10 y a 0.593250950.59325095 con probabilidad 1/101/10 y así sucesivamente.

Las distribuciones empíricas intervienen en la Prueba de Kolmogorov-Smirnov y el Prueba de Lilliefors (entre otras cosas).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X