2 votos

¿Calcular E[X] a partir de datos incompletos?

El ejercicio que estoy haciendo describe la variable aleatoria $X$ como las siguientes

| Number of cars |  0  |  1 |  2 |  3 |  4+ |

| % of families  |  15 | 45 | 25 | 13 |  2  |

Luego me pide que evalúe $E[X]$ . Pero si pudiera haber casos con más de 4 coches, ¿no haría eso imposible calcular la esperanza?

1voto

manku Puntos 111

Los porcentajes de las familias (15%, 45%, etc.) se suman al 100% para que usted puede tomar $r_0 = 0.15, r_1=.0.45, r_2 = 0.25, r_3 = 0.13, p_4 = 0.02$ como frecuencias relativas aproximadas como los números de coches 0, 1, ..., 4 de coches por familia. Es posible que un porcentaje muy pequeño de familias tenga más de 4 coches, pero para un valor aproximado de $E(X)$ parece poco probable que el valor esté muy alejado.

A continuación, encontrará $$E(X) \approx \sum_{k = 0}^4 kr_k = 0(.15) + 1(.45) + \cdots + 4(.02) = 1.42.$$

Así que parece que, de media, una familia tiene unos 1,42 coches.


Se trata de un concepto importante, porque a medida que aumenta el tamaño de la muestra de familias aumenta, las frecuencias relativas $r_k$ se acercan cada vez más estimaciones de $P(X = k).$ Entonces la distribución formal del expectativa $E(X)$ de la variable aleatoria $X$ se convierte en $$E(X) = \sum_k kP(X = k),$$ donde la suma se toma sobre todos los valores posibles $k.$

Otro ejemplo es la variable aleatoria $Y$ que cuenta el número de caras cuando se lanza cuatro veces una moneda al aire. Los posibles números de caras son $0, 1, 2, 3, 4$ y las probabilidades correspondientes son $1/16,\, 4/16,\, 6/16,\, 4/16,\, 1/16.$ Así, $E(Y) = \frac{0+4+12+12 + 4}{16} = 2.$

0voto

Isaac Abraham Puntos 1102

Abundando en el comentario de @Martijn Weterings, tienes lo que creo que se llama datos censurados a la derecha: a las familias con más de 4 coches se les censura el número real de coches en 4.

No se puede calcular directamente el número medio de coches sin hacer algunas suposiciones, algunas de las cuales se discuten en Glass y Grey (cita más abajo). Ese artículo incluye datos censurados a la izquierda; utilizan un instrumento con un límite de detección inferior conocido para medir el nivel de alguna sustancia, por lo que una lectura de 0 podría estar en cualquier lugar entre 0 y el límite inferior.

Está relacionado, pero en el análisis de supervivencia es habitual que haya censura. Normalmente, realizamos un estudio con un tiempo de seguimiento fijo. Algunos pacientes mueren durante el estudio. Al final del estudio, sabemos que el resto de ellos murieron en cualquier lugar desde el punto final del estudio hasta el infinito. El análisis de supervivencia compensa este tipo de censura. Alternativamente, en un marco de regresión, la regresión Tobit puede manejar tanto la censura izquierda como la derecha y producir una inferencia consistente sobre los coeficientes de regresión. Ambos están relacionados con su problema de datos, pero no ayudan a su pregunta específica - esto es sólo para información general.

Se trata de DC Glass y CN Gray (2001), Estimating Mean Exposures from Censored Data: Exposure to Benzene in the Australian Petroleum Industry, Anales de Higiene Ocupacional . Se puede buscar en Internet y es gratuito (creo), pero no puedo enlazar directamente con el artículo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X