10 votos

El rompecabezas de la regresión a la media

En el capítulo "Regresión a la media" de "Thinking, Fast and Slow" de Daniel Kahneman, se da un ejemplo y se pide al lector que pronostique las ventas de las tiendas individuales dada la previsión de ventas global y las cifras de ventas del año anterior. Por ejemplo (el ejemplo del libro tiene 4 tiendas, aquí utilizo 2 para simplificar):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

La previsión ingenua sería de 110 y 550 para las tiendas 1 y 2, un 10% de aumento para cada una. Sin embargo, el autor afirma que este enfoque ingenuo es erróneo. Es más probable que la tienda con peores resultados aumente más del 10%, y que la tienda con mejores resultados aumente (o incluso disminuya) menos del 10%. Así que quizás una previsión de 115 (aumento del 15%) y 535 (aumento del 7%) sería "más correcta" que la previsión ingenua.

Lo que no entiendo es cómo podemos concluir que las ventas de 100 de la tienda 1 son necesariamente las de peor rendimiento. Tal vez, debido a las diferencias de ubicación, las verdaderas medias de las series temporales de las tiendas 1 y 2 son 10 y 550, y la tienda 1 tuvo un súper año en 2011, y la tienda 2 tuvo un año desastroso en 2011. Entonces, ¿no tendría sentido prever un descenso para la tienda 1 y un aumento para la tienda 2?

Sé que en el ejemplo original no se daba información sobre las series temporales, pero tengo la impresión de que la "regresión a la media" se refiere a la media transversal y, por tanto, la información sobre las series temporales no importa. ¿Qué he entendido mal?

12voto

Zizzencs Puntos 1358

Resulta que estoy leyendo ese libro. No ha transcrito adecuadamente la información clave. Dice que "todas las tiendas son similares en tamaño y selección de mercancías, pero sus ventas difieren debido a la ubicación, la competencia y factores aleatorios." Eso es clave, sobre todo lo último. Los factores aleatorios son necesarios para que se produzca la regresión a la media (si las ventas crecieran una cantidad fija, entonces la ganancia del 10% dispersada por igual entre las tiendas sería correcta).

2voto

MattoxBeckman Puntos 827

Con tan pocos puntos de datos, la respuesta vendrá dictada casi en su totalidad por el previo (o su equivalente implícito). Si el autor ha visto mucho este tipo de datos antes, puede tener buenas razones para pensar que su respuesta es más probable que sea correcta, dadas sus observaciones anteriores. Sin embargo, creo que es exagerado sugerir que se trata de un ejemplo de regresión a la media, al menos no sin especificar algo más de información. Por ejemplo, ¿se encuentran las tiendas en lugares comparables o no? Si es así y no hay otras diferencias obvias entre las tiendas, podemos pensar que forman parte de una población comparable y podemos pensar en la regresión a la media. Si hay diferencias evidentes entre las tiendas que podrían explicar una diferencia sistemática en las ventas, entonces es menos sensato hacerlo.

1voto

rutherford Puntos 165

Creo que una mejor ilustración (hipotética) podría ser algo así:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Salvo que existan razones sistemáticas, cabría esperar que el que peor funcione (por causas aleatorias) no lo haga de nuevo. Y lo mismo ocurre con el que obtiene los mejores resultados.

Por lo tanto, con un crecimiento medio del 10%, esperaría que el nº 1 lo hiciera mejor que el 110 y el nº 6 peor que el 330.

Creo que la parte dudosa son las suposiciones. Es muy raro, en mi opinión, que el rezagado del grupo sea realmente una casualidad y no una heterogeneidad subyacente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X