11 votos

Utilizando la Regresión del proyecto fuera del rango de datos ok? nunca ok? a veces ok?

¿Cuáles son sus pensamientos sobre el uso de la regresión para el proyecto fuera del rango de datos? Si estamos seguros de que se sigue un lineal o modelo de la potencia de la forma, no el modelo de ser útil más allá del rango de datos? Por ejemplo yo tengo volumen manejado por el precio. Debemos ser capaces de proyecto para los precios fuera del rango de datos en la que creo. Sus pensamientos?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92

13voto

mark Puntos 232

Casi todas las respuestas y comentarios de advertir contra los peligros de la extrapolación. Me gustaría ofrecer una manera más formal de ver si la predicción es prudente. El método se basa en la matriz de proyección sobre el espacio generado por las columnas de a X que asumimos rango completo, es decir, podemos suponer que la columna de espacio p-dimensional. Como usted puede recordar,

H=X(XTX)1X

Se puede demostrar que los elementos de la diagonal de a H satisfacer 0<Hii<1, i=1,,n, esto es una consecuencia de idempotence por el camino, y pueden ser interpretados como las distancias desde el centro de gravedad de la predictor espacio. Esto es cierto porque no hay una correspondencia uno a uno entre el aprovecha Hii y los cuadrados de las distancias de Mahalanobis. Una manera de detectar oculto extrapolaciones sería entonces para ver hasta qué punto el nuevo obsevation se encuentra desde el centroide, ¿verdad? Esto se puede hacer mediante el cálculo de la nueva diagonal elemento. Recordando algunas reglas básicas de la multiplicación de la matriz, tenemos

Hnew,new=xnewT(XTX)1xnew

Si Hnew,new es mucho mayor que el resto de los elementos de la diagonal, entonces este le dice que su nueva observación se encuentra bastante lejos del centro de gravedad y la predicción es, probablemente, un movimiento arriesgado. Toma algún criterio para decidir el tamaño es demasiado grande, así que, por supuesto, la técnica no es infalible. Su belleza, sin embargo, es que funciona en todas las dimensiones, cuando no puedes mirar un simple diagrama de dispersión que es.

No estoy seguro de que el software que está utilizando, pero casi todos ellos se devolverá el sombrero de la matriz con el comando adecuado. Así que le sugiero que eche un vistazo antes de hacer tu mente.

10voto

JayD3e Puntos 141

El error de predicción aumenta cuadráticamente con la distancia de la media. La ecuación de regresión y los resultados permiten medir el tamaño del error a lo largo del rango observado de datos, y el modelo sólo es adecuada en el mismo rango.

Fuera de ese rango de un montón de cosas pueden suceder. En primer lugar, la predicción se pone peor y peor debido al aumento del error de predicción.

Segundo, el modelo se puede romper por completo. La forma más fácil de ver que es tratar de proyecto un modelo que relaciona el precio de tiempo: Usted no puede hacer predicciones de tiempo negativo.

Tercero, la relación lineal puede ser inadecuado. En tu ejemplo, casi seguro que son las economías de escala, que podría llegar a ser muy notable si se intenta predecir muy lejos del rango de valores observados.

Un divertido ejemplo de este mismo efecto aparece en una de las obras de Mark Twain, donde se intenta modelar la longitud del río Mississippi en el tiempo --- es/era muy ventoso y acorta/ed cada año debido a la erosión de algunas de las curvas así como el hombre de los accesos directos --- y "predice" que en tantos años la distancia entre el Cairo, Illinois y Nueva Orleans se han reducido a alrededor de una milla y tres cuartos).

Por último, tenga en cuenta que el rango de valores observados, puede ser muy complicado si usted tiene más de una variable predictora. (Debido a las correlaciones entre los predictores, a menudo, usted no puede simplemente tomar el cuadro definido por los máximos y mínimos en cada predictor.)

4voto

TrynnaDoStat Puntos 3590

Usted no puede hacer toma de decisiones basadas en datos para áreas donde no se dispone de datos. Fin de la historia. Los datos pueden muy bien el apoyo de un perfil lineal para el rango de la cual se recopilan los datos pero no se dispone de datos impulsada por razones para creer que esta forma sigue siendo lineal fuera de su rango. Podría ser cualquier forma bajo el sol!

Puede asumir la forma lineal continúa fuera de su rango de datos, pero esto es subjetivo supuesto de no respaldadas por los datos que ha recopilado. Yo sugeriría que se consultó a un experto en la materia para ver, basado en sus conocimientos sobre el tema, que tan seguro esta suposición.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X