Hay varias formas sencillas de hacerlo en Excel.
Tal vez el más simple utiliza LINEST
para ajustar las líneas condicionadas a un valor de prueba de la intersección x. Una de las salidas de esta función es el residuo medio cuadrado. Utilice Solver
para encontrar la intersección X minimizando el residuo medio cuadrado. Si tienes algún cuidado en el control Solver
--especialmente al restringir la intersección x dentro de límites razonables y darle un buen valor de partida-- debería obtener excelentes estimaciones.
La parte más difícil es configurar los datos de la manera correcta. Podemos averiguarlo mediante una expresión matemática para el modelo implícito. Hay cinco grupos de datos: vamos a indexarlos por $k$ que van desde $1$ a $5$ (de abajo a arriba en la trama). Cada punto de datos puede entonces ser identificado por medio de un segundo índice $j$ como el par ordenado $x_{kj}, y_{kj}$ . (Parece que $x_{kj} = x_{k'j}$ para dos índices cualesquiera $k$ y $k'$ pero esto no es esencial.) En estos términos el modelo supone que hay cinco pendientes $ \beta_k $ y una intercepción X $ \alpha $ es decir.., $y_{kj}$ debe aproximarse mucho a $ \beta_k (x_{kj}- \alpha )$ . El combinado LINEST
/ Solver
solución minimiza la suma de los cuadrados de las discrepancias. Alternativamente, esto será útil para evaluar los intervalos de confianza, podemos ver el $y_{kj}$ como independiente extrae de las distribuciones normales que tienen una varianza común desconocida $ \sigma ^2$ y significa $ \beta_k (x_{kj}- \alpha )$ .
Esta formulación, con cinco coeficientes diferentes y el uso propuesto de LINEST
sugiere deberíamos establecer los datos en una matriz donde haya un separado columna para cada $k$ y estos son inmediatamente seguidos por una columna para el $y_{kj}$ .
He elaborado un ejemplo usando datos simulados similares a los que se muestran en la pregunta. Este es el aspecto de la matriz de datos:
[B] [C] [D] [E] [F] [G] [H] [I]
k x 1 2 3 4 5 y
-----------------------------------------------
355 7355 0 0 0 0 636
355 0 7355 0 0 0 3705
355 0 0 7355 0 0 6757
355 0 0 0 7355 0 9993
355 0 0 0 0 7355 13092
429 7429 0 0 0 0 539
...
Los extraños valores 7355
, 7429
etc., así como todos los ceros, se producen por medio de fórmulas. El uno en la célula D3
por ejemplo, es
=IF($B2=D$1, $C2-Alpha, 0)
Aquí, Alpha
es una célula con nombre que contiene la intercepción (actualmente fijada en -7000). Esta fórmula, cuando se pega en toda la extensión de las columnas encabezadas por "1" a "5", pone un cero en cada celda excepto cuando el valor de $k$ (que se muestra en la columna de la izquierda) corresponde al encabezamiento de la columna, donde pone la diferencia $x_{kj}- \alpha $ . Esto es lo que se necesita para realizar una regresión lineal múltiple con LINEST
. La expresión se parece a
LINEST(I2:I126,D2:H126,FALSE,TRUE)
Rango I2:I126
es la columna de valores y; rango D2:H126
comprende las cinco columnas computarizadas; FALSE
estipula que la intercepción Y es forzada a $0$ y TRUE
pide que se amplíen las estadísticas. El resultado de la fórmula ocupa un rango de 6 filas por 5 columnas, de las cuales las tres primeras filas pueden parecer
1.296 0.986 0.678 0.371 0.062
0.001 0.001 0.001 0.001 0.001
1.000 51.199
...
Extrañamente (hay que aguantar lo extraño cuando se hacen estadísticas en Excel :-), las columnas de salida corresponden a las columnas de entrada en orden inverso así, 1.296
es el coeficiente estimado para la columna H
(correspondiente a $k=5$ que hemos llamado $ \beta_5 $ ) mientras que 0.062
es el coeficiente estimado para la columna D
(correspondiente a $k=1$ que hemos llamado $ \beta_1 $ ).
Fíjese, en particular, en la 51.199
en la fila 3, columna 2 de la LINEST
salida: es la suma media de los cuadrados de los residuos. Eso es lo que nos gustaría minimizar. En mi hoja de cálculo este valor está en la celda U9
. Al observar los gráficos, pensé que la intersección X estaba seguramente entre $-20000$ y $0$ . Aquí está el correspondiente Solver
diálogo para minimizar U9
variando $ \alpha $ llamado XIntercept
en esta hoja:
Devolvió un resultado razonable casi instantáneamente. Para ver cómo puede funcionar, compare los parámetros establecidos en la simulación con las estimaciones obtenidas de esta manera:
Parameter Value Estimate
Alpha -10000 -9696.2
Beta1 .05 .0619
Beta2 .35 .3710
Beta3 .65 .6772
Beta4 .95 .9853
Beta5 1.25 1.2957
Sigma 50 51.199
Usando estos parámetros, el ajuste es excelente:
Uno puede ir más allá al computar el ajuste y usar eso para calcular la probabilidad del registro. Solver
puede modificar un conjunto de parámetros (initalizados a la LINEST
estimaciones) un parámetro a la vez para lograr cualquier valor deseado de la probabilidad logarítmica menos que el valor máximo. De la manera habitual, reduciendo la probabilidad de logaritmo en un cuantil de un $ \chi ^2$ distribución se pueden obtener intervalos de confianza para cada parámetro. De hecho, si quieres es una excelente manera de aprender cómo funciona la maquinaria de máxima probabilidad puedes saltarte la LINEST
enfoque en su conjunto y el uso Solver
para maximizar la probabilidad del registro. Sin embargo, el uso de Solver
de esta manera "desnuda" -sin saber de antemano aproximadamente lo que los parámetros estimados deberían ser- es arriesgado. Solver
se detendrá fácilmente en un máximo local (pobre). La combinación de una estimación inicial, como la que permite adivinar en $ \alpha $ y aplicando LINEST
junto con una rápida aplicación de Solver
para pulir estos resultados, es mucho más fiable y tiende a funcionar bien.