47 votos

Comprender las regresiones: el papel del modelo

¿Cómo puede ser útil un modelo de regresión si no se conoce la función de la que se intentan obtener los parámetros?

Vi una investigación que decía que las madres que amamantaban a sus hijos tenían menos probabilidades de sufrir diabetes en su vida posterior. La investigación procedía de una encuesta realizada a unas 1.000 madres y en ella se controlaban diversos factores y se utilizaba un modelo loglineal.

¿Significa esto que consideran que todos los factores que determinan la probabilidad de diabetes encajan en una bonita función (presumiblemente exponencial) que se traduce perfectamente en un modelo lineal con logaritmos y que el hecho de que la mujer haya dado el pecho ha resultado ser estadísticamente significativo?

Seguro que se me escapa algo pero, ¿cómo demonios saben el modelo?

44voto

Marc-Andre R. Puntos 789

Ayuda a ver la regresión como una aproximación lineal de la forma verdadera. Supongamos que la verdadera relación es

$$y=f(x_1,...,x_k)$$

con $x_1,...,x_k$ factores que explican la $y$ . Entonces la aproximación de Taylor de primer orden de $f$ alrededor de cero es:

$$f(x_1,...,x_k)=f(0,...,0)+\sum_{i=1}^{k}\frac{\partial f(0)}{\partial x_k}x_k+\varepsilon,$$

donde $\varepsilon$ es el error de aproximación. Denotemos ahora $\alpha_0=f(0,...,0)$ y $\alpha_k=\frac{\partial{f}(0)}{\partial x_k}$ y tienes una regresión:

$$y=\alpha_0+\alpha_1 x_1+...+\alpha_k x_k + \varepsilon$$

Así que, aunque no conozca la verdadera relación, si $\varepsilon$ es pequeño se obtiene una aproximación, de la que aún se pueden deducir conclusiones útiles.

19voto

James Sutherland Puntos 2033

La otra cara de la respuesta, complementaria a la de mpiktas pero no mencionada hasta ahora, es:

"No lo hacen, pero en cuanto asumen alguna estructura del modelo, pueden compruébalo contra los datos".

Las dos cosas básicas que podrían ir mal son: El formulario de la función, por ejemplo, ni siquiera es lineal en logaritmos. Por lo tanto, se empezaría por trazar un residuo apropiado contra los valores esperados. O la elección de distribución condicional Por ejemplo, los recuentos observados están sobredispersos con respecto a Poisson. Por lo tanto, habría que probar con una versión binomial negativa del mismo modelo, o ver si las covariables adicionales explican la variación extra.

También hay que comprobar si hay valores atípicos, observaciones influyentes y muchas otras cosas. Un lugar razonable para leer sobre la comprobación de este tipo de problemas del modelo es el capítulo 5 de Cameron y Trivedi 1998. (Seguramente hay un lugar mejor para que empiecen los investigadores con orientación epidemiológica; tal vez otras personas puedan sugerirlo).

Si estos diagnósticos indicaran que el modelo no se ajusta a los datos, se cambiaría el aspecto relevante del modelo y se volvería a empezar todo el proceso.

16voto

Berek Bryan Puntos 349

Una excelente primera pregunta. Estoy de acuerdo con la respuesta de mpiktas, es decir, la respuesta corta es "no lo hacen, pero esperan tener una aproximación al modelo correcto que dé aproximadamente la respuesta correcta".

En la jerga de la epidemiología, esta incertidumbre del modelo es una fuente de lo que se conoce como ' confusión residual '. Ver Página de Steve Simon "¿Qué es la confusión residual? para una buena descripción corta, o El artículo de Heiko Becher de 1992 en Estadísticas en medicina (requiere suscripción) para un tratamiento más largo y matemático, o El artículo más reciente de Fewell, Davey Smith & Sterne en el Revista Americana de Epidemiología (requiere suscripción).

Esta es una de las razones por las que la epidemiología de los efectos pequeños es difícil y los resultados suelen ser controvertidos: si el tamaño del efecto medido es pequeño, es difícil descartar la confusión residual u otras fuentes de sesgo como explicación.

15voto

David J. Sokol Puntos 1730

Existe la famosa cita "Esencialmente, todos los modelos son erróneos, pero algunos son útiles" de George Box . Al ajustar modelos como éste, intentamos (o deberíamos) pensar en el proceso de generación de datos y en las relaciones físicas, del mundo real, entre la respuesta y las covariables. Intentamos expresar estas relaciones en un modelo que se ajuste a los datos. O, dicho de otro modo, que sea coherente con los datos. De este modo, se elabora un modelo empírico.

Si es útil o no, se determina más adelante: ¿ofrece predicciones buenas y fiables, por ejemplo, para las mujeres que no se utilizan para ajustar el modelo? ¿Son los coeficientes del modelo interpretables y de utilidad científica? ¿Son significativos los tamaños de los efectos?

5voto

Brettski Puntos 5485

Las respuestas que ya has obtenido son excelentes, pero voy a dar una respuesta (espero) complementaria desde la perspectiva de un Epidemiólogo. Realmente tengo tres ideas sobre esto:

Primero, no lo hacen. Véase también: Todos los modelos son erróneos, algunos modelos son útiles. El objetivo no es producir un número único y definitivo que se tome como la "verdad" de una función subyacente. El objetivo es producir una estimación de esa función, con una cuantificación de la incertidumbre en torno a ella, que sea una aproximación razonable y útil de la función subyacente.

Esto es especialmente cierto para las medidas de gran efecto. El mensaje que se extrae de un estudio que encuentra un riesgo relativo de 3,0 no es realmente diferente si la relación "verdadera" es de 2,5 o 3,2. Como mencionó @onestop, esto se hace más difícil con estimaciones de medidas de efecto pequeñas, porque la diferencia entre 0,9, 1,0 y 1,1 puede ser enorme desde el punto de vista sanitario y político.

En segundo lugar, hay un proceso oculto en la mayoría de los trabajos de Epidemiología. Ese es el verdadero proceso de selección del modelo . Solemos informar sobre el modelo que hemos elegido, no sobre todos los modelos que hemos considerado (porque eso sería, entre otras cosas, tedioso). En el análisis de los estudios observacionales, incluso de los más pequeños, hay un montón de pasos para la construcción de modelos, diagramas conceptuales, diagnósticos, estadísticas de ajuste, análisis de sensibilidad, insultos a los ordenadores y garabatos en pizarras blancas.

Porque mientras son haciendo suposiciones, muchas de ellas también son suposiciones que se pueden comprobar.

En tercer lugar, a veces no lo hacemos. Y entonces vamos a las conferencias y discutimos entre nosotros al respecto ;)

Si está interesado en los detalles de la Epidemiología como campo, y en cómo realizamos nuestras investigaciones, el mejor lugar para empezar es probablemente Epidemiología moderna 3ª edición por Rothman, Greenland y Lash. Es un resumen moderadamente técnico y muy bueno de cómo se lleva a cabo la investigación de Epi.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X