El promedio de cada subcategoría puede estar por encima de la media general de si las subcategorías de la superposición de los grandes clientes.
Ejemplo sencillo para obtener la intuición:
- Deje $A$ ser un indicador de si un individuo ha comprado un artículo en la categoría A.
- Deje $B$ ser un indicador de si un individuo ha comprado un artículo en la categoría B.
- Deje $X = A + B$ el número de artículos comprados.
\begin{array}{ccc}
\text{Person} & A & B \\
i & 1 & 0 \\
ii & 0 & 1 \\
iii & 1 & 1
\end{array}
El conjunto de los individuos que $A$ es cierto se superpone al conjunto de individuos donde $B$ es cierto. Son NO disjuntas conjuntos.
A continuación, $\operatorname{E}[X] \approx 1.33$ mientras $\operatorname{E}[X \mid A] = 1.5$ $\operatorname{E}[X \mid B] = 1.5$
La declaración de que sería la verdadera es:
$$ P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] - P(AB)\operatorname{E}[X\mid AB] = \operatorname{E}[X]$$
$$ \frac{2}{3}1.5 + \frac{2}{3}1.5 - \frac{1}{3}2 = 1.3333$$
Simplemente no se puede calcular $P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] $ debido a que los conjuntos de $A$ $B$ de solapamiento, la expresión de la doble cuenta de la persona que compra tanto elemento $A$$B$!
Nombre de la ilusión/de la paradoja?
Yo diría que esta relacionado con la mayoría de la ilusión de la paradoja en las redes sociales.
Usted puede tener un solo tipo que las redes/amigos de todo el mundo. Esa persona puede ser uno de un millón en total, pero él va a ser uno de cada una de las personas de $k$ amigos.
Del mismo modo, se tiene que 1 de cada 3 aquí la compra de las categorías a y B. Pero dentro de la categoría a o B, de 1 de los 2 a los compradores es el super comprador.
Caso extremo:
Vamos a crear $n$ juegos de billetes de lotería. Cada set $S_i$ incluye dos entradas: una pérdida de ticket $i$ y el boleto ganador del premio mayor.
El promedio de ganancias en cada set $S_i$ luego $\frac{J}{2}$ donde $J$ es el premio mayor. El promedio de cada categoría se FORMA por encima del promedio de ganancias por boleto total $\frac{J}{n+1}$.
Es el mismo conceptual dinámico como el caso de ventas. Cada set $S_i$ incluye el boleto del premio mayor de la misma manera que cada una de las categorías a, B, o C incluye los pesados de los compradores.
Mi línea de fondo y el punto sería que la intuición basada en distintos conjuntos completo de la partición del espacio muestral qué no llevar a una serie de superposición de conjuntos. Si la condición en la superposición de categorías, cada categoría puede estar por encima de la media.
Si la partición del espacio muestral y de la condición en conjuntos disjuntos, entonces las categorías tienen en promedio a la media general, pero eso no es cierto para la superposición de conjuntos.