Es inusual no ajustar un intercepto y generalmente desaconsejable - uno sólo debería hacerlo si sabe que es 0, pero creo que (y el hecho de que no se puede comparar el $R^2$ para los ajustes con y sin intercepción) ya está bien cubierto (aunque posiblemente un poco exagerado en el caso de la intercepción 0); quiero centrarme en tu cuestión principal, que es que necesitas que la función ajustada sea positiva, aunque vuelvo a la cuestión de la intercepción 0 en parte de mi respuesta.
La mejor manera de conseguir un ajuste siempre positivo es ajustar algo que siempre sea positivo; en parte eso depende de las funciones que necesites ajustar.
Si su modelo lineal es en gran medida uno de conveniencia (en lugar de provenir de una relación funcional conocida que podría provenir de un modelo físico, por ejemplo), entonces podría trabajar con el logaritmo del tiempo; el modelo ajustado está entonces garantizado para ser positivo en $t$ . Como alternativa, se podría trabajar con la velocidad en lugar del tiempo - pero entonces con los ajustes lineales se puede obtener un problema con velocidades pequeñas (tiempos largos) en su lugar.
Si sabe que su respuesta es lineal en los predictores, puede intentar ajustar un regresión restringida pero en el caso de la regresión múltiple, la forma exacta que necesite dependerá de sus x particulares (no hay una restricción lineal que funcione para todas las $x's$ ), por lo que es un poco ad hoc.
También se pueden examinar los GLM, que se pueden utilizar para ajustar modelos que tienen valores ajustados no negativos y pueden (si es necesario) incluso tener $E(Y)=X\beta$ .
Por ejemplo, se puede ajustar un GLM gamma con enlace de identidad. No debería terminar con un valor ajustado negativo para ninguna de sus x (pero quizás podría tener problemas de convergencia en algunos casos si fuerza el enlace de identidad donde realmente no se ajusta).
He aquí un ejemplo: el cars
conjunto de datos en R, que registra la velocidad y las distancias de parada (la respuesta).
Uno podría decir "oh, pero la distancia para la velocidad 0 está garantizada para ser 0, así que deberíamos omitir el intercepto" pero el problema con ese razonamiento es que el modelo está mal especificado de varias maneras, y ese argumento sólo funciona bastante bien cuando el modelo no está mal especificado - un modelo lineal con 0 intercepto no se ajusta en absoluto bien en este caso, mientras que uno con un intercepto es en realidad una aproximación medio decente aunque no sea realmente "correcto".
El problema es que, si se ajusta una regresión lineal ordinaria, el intercepto ajustado es bastante negativo, lo que hace que los valores ajustados sean negativos.
La línea azul es el ajuste OLS; el valor ajustado para los valores x más pequeños del conjunto de datos es negativo. La línea roja es el GLM gamma con enlace de identidad -- aunque tiene un intercepto negativo, sólo tiene valores ajustados positivos. Este modelo tiene una varianza proporcional a la media, por lo que si encuentra que sus datos son más dispersos a medida que el tiempo esperado crece, puede ser especialmente adecuado.
Así que ese es un posible enfoque alternativo que puede valer la pena probar. Es casi tan fácil como ajustar una regresión en R.
Si no necesitas el enlace de identidad, puedes considerar otras funciones de enlace, como el enlace logarítmico y el enlace inverso, que se relacionan con las transformaciones ya discutidas, pero sin la necesidad de una transformación real.
Como la gente suele pedirlo, aquí está el código de mi parcela:
plot(dist~speed,data=cars,xlim=c(0,30),ylim=c(-5,120))
abline(h=0,v=0,col=8)
abline(glm(dist~speed,data=cars,family=Gamma(link=identity)),col=2,lty=2)
abline(lm(dist~speed,data=cars),col=4,lty=2)
(La elipse se añadió a mano después, aunque es bastante fácil de hacer en R también)
5 votos
También querrá leer: Eliminación del término de intercepción estadísticamente significativo impulso $R^2$ en el modelo lineal .
2 votos
Hay varios votos para cerrar este hilo por ser un duplicado de uno de los referidos en los comentarios anteriores. Esos votos son válidos en base a (1) e incluso (2), pero (3) parece nuevo. Por lo tanto, me gustaría sugerir que los encuestados se centren en la tercera pregunta.
0 votos
Mis disculpas por el cruce con otras preguntas, sin embargo encontré que las preguntas que busqué, incluyendo la que está enlazada, no abordaban aspectos específicos, como por ejemplo dónde se espera un valor siempre positivo, sin embargo me parece bien que se centre en el tercer punto, ya que es el más importante.