Casi todo lo que he leído acerca de la regresión lineal y GLM se reduce a esto: $y = f(x,\beta)$ donde $f(x,\beta)$ es un no-aumentar o no la disminución de la función de $x$ $\beta$ es el parámetro a estimar y probar hipótesis acerca de. Hay docenas de funciones de enlace y de las transformaciones de $y$ $x$ hacer $y$ una función lineal de la $f(x,\beta)$.
Ahora, si se quita la no-aumento/no decreciente requisito para $f(x,\beta)$, que yo sepa, sólo dos opciones para el ajuste paramétrico lineal modelo: funciones trigonométricas y polinomios. Creación artificial de dependencia entre cada predijo $y$ y el conjunto de las $X$, haciendo de ellos una no muy robusto ajuste a menos que hay antes de razones para creer que sus datos son generados por una o cíclicos polinomio proceso.
Esto no es algún tipo de esotérico caso extremo. Es el real, en el sentido común de la relación entre el agua y el rendimiento de los cultivos (una vez que las parcelas son lo suficientemente profundo bajo el agua, los rendimientos de los cultivos comenzará a disminuir), o entre las calorías que se consumen en el desayuno y el rendimiento en una prueba de matemáticas, o el número de trabajadores en una fábrica, y el número de widgets que producen... en definitiva, casi cualquier caso de la vida real para que los modelos lineales son usados pero con los datos que abarcan un espectro suficientemente amplio que ir más allá de los rendimientos decrecientes en los rendimientos negativos.
He intentado buscar los términos "cóncavo', 'convexo', 'curvilíneo', 'no-monotónica', 'bañera', y me olvido de cómo muchos otros. Algunas preguntas relevantes y menos aún utilizable respuestas. Así, en términos prácticos, si el que tenía los siguientes datos (código R, y es una función continua de la variable x y la variable discreta de grupo):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Usted podría intentar primero un Box-Cox transformación y a ver si es hecho en sentido mecanicista, y en su defecto, que podría encajar un no lineal de mínimos cuadrados del modelo con una logística o asintótica función de enlace.
Así que, ¿por qué debería renunciar a los modelos paramétricos completamente y volver a caer en una "caja negra" como método de splines cuando descubres que el completo conjunto de datos se parece a esto...
plot(y~x,updown,col=group);
Mis preguntas son:
- Qué condiciones debo buscar para encontrar funciones de enlace que representan a esta clase de relaciones funcionales?
o
- ¿Qué debo leer y/o buscar en el fin de enseñar a mí mismo cómo diseñar funciones de enlace a esta clase de relaciones funcionales o ampliar los ya existentes que en la actualidad sólo para monótona de las respuestas?
o
- Heck, incluso lo StackExchange etiqueta es la más apropiada para este tipo de pregunta!