¿Qué representa una distribución empírica?

Question

¿Qué representa una distribución empírica?

Preguntado el 20 de Octubre, 2011: Cuando se hizo la pregunta
6462 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Esto puede sonar demasiado general, pero tengo un problema para entender qué se supone que significa una distribución empírica. Si tomo su definición formal: $P_n(A):=\frac 1 n \sum_{i = 1} ^ n I(X_i \in A)$ ¿Cómo lo interpreto? ¿Alguien tiene un ejemplo "práctico" que respalde su significado? Me parece demasiado abstracto.

Preguntado el 20 de Octubre, 2011 por VarLogRant

Answer 1

4 Respuestas

Answer 2

14voto

Jon Clegg Puntos 661

Un modelo físico de la distribución de un valor aleatorio $X$ es escribir todos los valores posibles de $X$ en trozos de papel (repitiendo los valores según sea necesario para darles mayores probabilidades) y ponerlos en una caja, mezclarlos bien y sacar uno. Las probabilidades son sólo las proporciones de la caja: la probabilidad de cualquier conjunto $A$ de los posibles valores de $X$ se encuentra contando los billetes con valores en $A$ y dividiendo por el total de la caja.

La FED describe la variable aleatoria que se obtiene cuando se toma toda la muestra -es decir, todos los trozos de papel que se han extraído para modelar un conjunto de observaciones- y se introducen en una caja vacía.

Una forma elegante de calcular las probabilidades de la FED es la siguiente. Dado un conjunto $A$ cuya probabilidad desea conocer, examine cada billete de la caja (es decir, cada observación) y escriba un "1" si el valor de ese billete está en $A$ y en caso contrario escriba un "0". (El símbolo de este procedimiento es " $I(X_i \in A)$ .") Sumando estos valores se cuenta el número de entradas con valor en $A$ . Dividir por el número total de entradas, $n$ para calcular la proporción. Eso es todo lo que hace la fórmula de la pregunta.

La FED tiene aplicaciones prácticas en simulaciones, pruebas de permutación y, sobre todo, en métodos de remuestreo . La intuición es que si sus observaciones son representativas de la población original (es decir, del conjunto de billetes de la caja original), entonces puede estudiar la FED para aprender a hacer inferencias sobre el contenido de una caja basándose en una muestra de la misma.

Como ejemplo, supongamos que recibe 40 respuestas "no" y 60 "sí" de 100 respuestas a una pregunta formulada a una muestra aleatoria de personas. Dado que la muestra es aleatoria, usted sabe que es incierta y, por tanto, le gustaría estimar en qué medida la división 40:60 podría coincidir con la proporción real de opiniones dentro de toda la población. Para averiguarlo, pon tus 100 papelitos en una caja que, por tanto, contenga un 40% de no y un 60% de sí (ésa es la distribución empírica). Tome una muestra de esta caja ( con la sustitución, para que su contenido sea el mismo de un sorteo a otro) 100 veces. Esto emula su procedimiento de muestreo original, pero debido a la variación del azar es probable que produzca un resultado diferente. Repita este muestreo -con un ordenador- miles de veces para ver cuánto varían los resultados. Así se obtiene una estimación de la variabilidad por remuestreo de su muestra real.

Respondido el 20 de Octubre, 2011 por Jon Clegg (661 Puntos )

Answer 3

8voto

JiminyCricket Puntos 143

La distribución empírica es la distribución que se obtendría si se tomara una muestra de la misma en lugar de toda la población.

Respondido el 21 de Octubre, 2011 por JiminyCricket (143 Puntos )

Answer 4

6voto

GalmWing Puntos 201

Lo único que ocurre es que se está definiendo una medida de probabilidad (aleatoria) que asigna a cada $A$ la probabilidad $\frac 1 n \sum_{i = 1} ^ n I(X_i \in A)$ que es la proporción de observaciones que entran en el conjunto $A$ . Por ejemplo, imagine que tengo una muestra aleatoria de una población $(1, 4, 5, 2, 3)$ y que $A$ sea el conjunto de enteros pares. Entonces la distribución de probabilidad empírica asigna la probabilidad $\frac 2 5$ a $A$ porque $\frac 2 5$ 's de las observaciones son pares.

Es un animal interesante. Se comprueba fácilmente que para los fijos $A$ esto produce un estimador insesgado de $P(X_1 \in A)$ y que como $n \to \infty$ se obtiene la convergencia en probabilidad. Con más esfuerzo se puede reforzar este tipo de cosas de forma considerable. Las propiedades de convergencia son bastante buenas; véase, por ejemplo, el teorema de Glivenko-Cantelli, que se refiere a la función de distribución empírica estrechamente relacionada, y la desigualdad DKW, que da una tasa de convergencia para la función de distribución empírica a la función de distribución verdadera.

Respondido el 20 de Octubre, 2011 por GalmWing (201 Puntos )

Answer 5

1voto

Michael Hardy Puntos 128804

En el lenguaje de programación R, el comando rnorm(10) debería simular una muestra aleatoria de tamaño 10 de una distribución normal estándar. Así que la "curva en forma de campana" es la distribución de probabilidad de la que se toma la muestra. Así que hago esto:

sort(rnorm(10))
[1] -1.41555384 -0.59325095 -0.41850747 -0.39489145 -0.29435177 0.04814372
[7] 0.16891370 0.48928250 0.96755695 1.88467730

La distribución empírica es entonces la distribución de una variable aleatoria que es igual a $-1.41555384$ con probabilidad $1/10$ y a $-0.59325095$ con probabilidad $1/10$ y así sucesivamente.

Las distribuciones empíricas intervienen en la Prueba de Kolmogorov-Smirnov y el Prueba de Lilliefors (entre otras cosas).

Respondido el 20 de Octubre, 2011 por Michael Hardy (128804 Puntos )

¿Qué representa una distribución empírica?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Qué representa una distribución empírica?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: