27 votos

Estadísticos nos hacemos uno puede ' t sobre el agua una planta, o estoy usando sólo los términos de búsqueda incorrecta de regresión curvilínea?

Casi todo lo que he leído acerca de la regresión lineal y GLM se reduce a esto: $y = f(x,\beta)$ donde $f(x,\beta)$ es un no-aumentar o no la disminución de la función de $x$ $\beta$ es el parámetro a estimar y probar hipótesis acerca de. Hay docenas de funciones de enlace y de las transformaciones de $y$ $x$ hacer $y$ una función lineal de la $f(x,\beta)$.

Ahora, si se quita la no-aumento/no decreciente requisito para $f(x,\beta)$, que yo sepa, sólo dos opciones para el ajuste paramétrico lineal modelo: funciones trigonométricas y polinomios. Creación artificial de dependencia entre cada predijo $y$ y el conjunto de las $X$, haciendo de ellos una no muy robusto ajuste a menos que hay antes de razones para creer que sus datos son generados por una o cíclicos polinomio proceso.

Esto no es algún tipo de esotérico caso extremo. Es el real, en el sentido común de la relación entre el agua y el rendimiento de los cultivos (una vez que las parcelas son lo suficientemente profundo bajo el agua, los rendimientos de los cultivos comenzará a disminuir), o entre las calorías que se consumen en el desayuno y el rendimiento en una prueba de matemáticas, o el número de trabajadores en una fábrica, y el número de widgets que producen... en definitiva, casi cualquier caso de la vida real para que los modelos lineales son usados pero con los datos que abarcan un espectro suficientemente amplio que ir más allá de los rendimientos decrecientes en los rendimientos negativos.

He intentado buscar los términos "cóncavo', 'convexo', 'curvilíneo', 'no-monotónica', 'bañera', y me olvido de cómo muchos otros. Algunas preguntas relevantes y menos aún utilizable respuestas. Así, en términos prácticos, si el que tenía los siguientes datos (código R, y es una función continua de la variable x y la variable discreta de grupo):

updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
                   x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
                   group=factor(rep(c('A','B'),c(81,110))));

plot(y~x,updown,subset=x<500,col=group);

Scatterplot

Usted podría intentar primero un Box-Cox transformación y a ver si es hecho en sentido mecanicista, y en su defecto, que podría encajar un no lineal de mínimos cuadrados del modelo con una logística o asintótica función de enlace.

Así que, ¿por qué debería renunciar a los modelos paramétricos completamente y volver a caer en una "caja negra" como método de splines cuando descubres que el completo conjunto de datos se parece a esto...

plot(y~x,updown,col=group);

Mis preguntas son:

  • Qué condiciones debo buscar para encontrar funciones de enlace que representan a esta clase de relaciones funcionales?

o

  • ¿Qué debo leer y/o buscar en el fin de enseñar a mí mismo cómo diseñar funciones de enlace a esta clase de relaciones funcionales o ampliar los ya existentes que en la actualidad sólo para monótona de las respuestas?

o

  • Heck, incluso lo StackExchange etiqueta es la más apropiada para este tipo de pregunta!

60voto

jldugger Puntos 7490

Los comentarios en la pregunta sobre las funciones de enlace y la monotonía son un arenque rojo. Subyacente parece ser una suposición implícita de que un modelo lineal generalizado (GLM), mediante la expresión de la expectativa de una respuesta $Y$ como una forma monotónica $f$ de una combinación lineal $X\beta$ de las variables explicativas $X$, no es lo suficientemente flexible como para dar cuenta de la no-monotónica respuestas. Eso no es así.


Tal vez un ejemplo práctico se iluminará en este punto. En un estudio de 1948 (publicada póstumamente en 1977 y nunca peer-reviewed), J. Tolkien informó de los resultados de una planta de riego experimento en el que 13 de los grupos, de 24 de girasol (Helianthus Gondorensis) fueron dados de cantidades controladas de agua a partir de la germinación a través de tres meses de crecimiento. El total de las cantidades aplicadas varían de una pulgada a 25 pulgadas de dos pulgadas en incrementos.

Figure 1

Hay una clara respuesta positiva para el riego y una fuerte respuesta negativa a la sobre-riego. Anterior trabajo, basado en el hipotético modelos cinéticos de transporte de iones, tenía la hipótesis de que los dos mecanismos de competencia podría explicar este comportamiento: uno resultó en una respuesta lineal para pequeñas cantidades de agua (medido en el registro de las probabilidades de supervivencia), mientras que la otra -, un factor de inhibición--actuado de manera exponencial (que es fuertemente no lineal de efectos). Con grandes cantidades de agua, el factor inhibidor de la colmaría de los efectos positivos del agua y aumenta sensiblemente la mortalidad.

Deje $\kappa$ el (desconocido) tasa de inhibición (por unidad de cantidad de agua). Este modelo afirma que el número de $Y$ de los sobrevivientes en un grupo de tamaño $n$ recibir $x$ pulgadas de agua debe tener un $$\text{Binomial}\left(n, f(\beta_0 + \beta_1 x - \beta_2 \exp(\kappa x))\right)$$ distribution, where $f$ is the link function converting log odds back to a probability. This is a binomial GLM. As such, although it is manifestly nonlinear in $x$, given any value of $\kappa$ it is linear in its parameters $\beta_0$, $\beta_1$, and $\beta_2$. "Linearity" in the GLM setting has to be understood in the sense that $f^{-1}\left(\mathbb{E}[Y]\right)$ is a linear combination of these parameters whose coefficients are known for each $x$. And they are: they equal $1$ (the coefficient of $\beta_0$), $x$ itself (the coefficient of $\beta_1$), and $-\exp(\kappa x)$ (the coefficient of $\beta_2$).

This model--although it is somewhat novel and not completely linear in its parameters--can be fit using standard software by maximizing the likelihood for arbitrary $\kappa$ and selecting the $\kappa$ for which this maximum is largest. Here is R code to do so, beginning with the data:

water <- seq(1, 25, length.out=13)
n.survived <- c(0, 3, 4, 12, 18, 21, 23, 24, 22, 23, 18, 3, 2)
pop <- 24
counts <- cbind(n.survived, n.died=pop-n.survived)
f <- function(k) {
  fit <- glm(counts ~ water + I(-exp(water * k)), family=binomial)
  list(AIC=AIC(fit), fit=fit)
}
k.est <- optim(0.1, function(k) f(k)$AIC, method="Brent", lower=0, upper=1)$par
fit <- f(k.est)$fit

There are no technical difficulties; the calculation takes only 1/30 second.

Figure 2

The blue curve is the fitted expectation of the response, $\mathbb{E}[Y]$.

Obviously (a) the fit is good and (b) it predicts a non-monotonic relationship between $\mathbb{E}[Y]$ and $x$ (un revés "bañera" de la curva). Para hacer esto perfectamente claro, aquí es el seguimiento de código en R se utiliza para calcular y trazar la forma:

x.0 <- seq(min(water), max(water), length.out=100)
p.0 <- cbind(rep(1, length(x.0)), x.0, -exp(k.est * x.0))
logistic <- function(x) 1 - 1/(1 + exp(x))
predicted <- pop * logistic(p.0 %*% coef(fit))

plot(water, n.survived / pop, main="Data and Fit",
     xlab="Total water (inches)", 
     ylab="Proportion surviving at 3 months")
lines(x.0, predicted / pop, col="#a0a0ff", lwd=2)

Las respuestas a las preguntas son:

Qué condiciones debo buscar para encontrar funciones de enlace que representan a esta clase de relaciones funcionales?

Ninguno: ese no es el propósito de la función de enlace.

¿Qué debo ... buscar en orden a ... ampliar los existentes [funciones de enlace] que en la actualidad sólo para monótona de las respuestas?

Nada: este se basa en un malentendido de cómo las respuestas son modelados.

Evidentemente, uno debe centrarse en primer lugar en qué variables explicativas para usar o construir cuando la construcción de un modelo de regresión. Como se sugiere en este ejemplo, buscar orientación de la experiencia del pasado y de la teoría.

10voto

Rob Allen Puntos 486

Se ve guiltily en la planta que esta muriendo en su escritorio....al parecer no

En los comentarios, @whuber dice que "el modelado de opciones debe ser informado por una comprensión de lo que se obtienen los datos y motivado por las teorías en las disciplinas pertinentes", a la que se le preguntó cómo uno va sobre hacer esto.

La ecuación de Michaelis y Menten cinética es en realidad un muy buen ejemplo. Estas ecuaciones se puede obtener a partir de algunos supuestos (por ejemplo, el sustrato está en equilibrio con su complejo, la enzima no se consume) y algunos conocidos con los principios de la ley de acción de masas). Murray Biología Matemática: Una Introducción camina a través de la derivación en el capítulo 6 (apostaría a que muchos otros libros también!).

Más en general, ayuda a construir un "repertorio" de los modelos y las hipótesis. Estoy seguro de que el campo tiene algunos de los más comúnmente aceptados en el tiempo, los modelos probados. Por ejemplo, si algo es de carga o de descarga, me gustaría llegar a una exponencial para modelar su voltaje como una función del tiempo. Por el contrario, si veo a una exponencial de la forma en un voltaje de tiempo de la trama, mi primera conjetura sería que algo en el circuito es capacitivo de descarga y, si yo no sabía lo que era, me gustaría tratar de encontrarlo. Idealmente, la teoría puede tanto ayudar a construir el modelo y sugerir nuevos experimentos.

Para sus datos, yo no soy un botánico así que realmente no sé qué hacer con ella. Podría ser una función lineal a trozos (lugar, la meseta, la caída). Podría ser un par de exponenciales (carga/descarga). Incluso podría imaginar que, en realidad, generado por algo como $y= k-(x+h)^2$, con algunos recortes en el pico. Yo sospecho que tener muy poca agua y el exceso de agua afectan a las plantas de manera diferente, lo que podría argumentar a favor de una función definida a tramos con una "sequía" de componentes, una región donde la planta es relativamente feliz, y luego una "inundación" de la región. Los mecanismos subyacentes de la sequía (reducción de la $\textrm{CO}_2$ captura de menos de transpiración?) y el diluvio (bacterias comer las raíces?) podría sugerir una forma específica para cada pieza.

9voto

Gmaster Puntos 21

Tengo un lugar informal respuesta desde el punto de vista de alguien que pasó la mitad de su vida científica en el banco y la otra mitad en la computadora, jugando con las estadísticas. Traté de poner en un comentario, pero era demasiado largo.

Usted ve, si yo era un científico de observar el tipo de resultados que se están obteniendo, yo estaría encantado. Los diversos monótona relaciones son aburridos y apenas se distinguía. Sin embargo, el tipo de relación que usted nos muestran sugieren un efecto muy peculiar. Esto nos da una maravillosa zona de juegos para el teórico para plantear hipótesis acerca de lo que es la relación, cómo los cambios en los extremos. Esto da a un gran patio de recreo para el científico de laboratorio para averiguar lo que está sucediendo y experimentar ampliamente en las condiciones.

En un sentido, prefiero el caso en el que se muestran y no saber cómo ajustar un modelo simple (pero ser capaz de elaborar una nueva hipótesis) que tienen una relación simple, fácil de modelo, pero más difícil de investigar de manera mecánica. Sin embargo, todavía no he encontrado un caso como en mi práctica.

Por último, hay una mayor consideración. Si usted está buscando una prueba que demuestra que el negro es diferente de la de color rojo (de los datos), como un ex científico de laboratorio, digo ¿por qué molestarse? Es lo suficientemente clara de la figura.

7voto

AdamSane Puntos 1825

Por datos como que, yo probablemente estaría considerar al menos lineal de splines.

Usted puede hacer los de la película o glm con bastante facilidad.

Si usted toma este enfoque, el problema será elegir el número de nudos y el nudo lugares; una solución podría ser la de considerar un buen número de lugares posibles, y usar algo como el lazo o de otros métodos de regularización y selección para identificar un pequeño conjunto; usted tendrá que tomar en cuenta el efecto de dicha selección en la inferencia, aunque.

5voto

generic_user Puntos 2269

No tengo tiempo para leer todo tu post, pero parece que su principal preocupación es que las formas funcionales de las respuestas podría cambiar con los tratamientos. Hay técnicas para lidiar con esto, pero que son de uso intensivo de datos.
A su ejemplo específico:

G es el crecimiento de la W es el agua T es el tratamiento

library(mgcv)
mod = gam(G~T+s(W,by=T))
plot(mod,pages=1,all=TRUE)
?gam

La última década ha visto un montón de investigación en semiparamétrico de regresión, y estos complementa acerca de las formas funcionales son cada vez más y más manejable. Pero al final del día, las estadísticas, es jugar con los números, y sólo es útil en la medida en que se basa la intuición sobre el fenómeno bajo observación. Esto a su vez requiere entender las formas en que los números se están reproduciendo. El tono de tu post indicar un deseo de tirar el bebé con el agua del baño.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X