Tengo la ingenua idea de que la regresión lineal sólo es adecuada cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no parece que muchas aplicaciones del mundo real cumplan este criterio.
Esto no es una comprensión correcta de lo que es "lineal" en la "regresión lineal".
No es la relación entre $y$ y el $x$ 's que se supone que es de forma lineal (aunque todos los ejemplos elementales son susceptibles de engañar).
Lo de "lineal" se refiere a que el modelo es lineal en los parámetros, y las relaciones no lineales entre $y$ y algunos $x$ ciertamente puede ser modelado de esa manera.
Hay un ejemplo con un solo predictor aquí pero los modelos curvilíneos se ajustan más a menudo como regresión múltiple, en la que pueden aparecer varias funciones de un predictor (variable x, variable independiente) en la regresión, lo que permite una gran flexibilidad. Esto incluye la regresión polinómica, por ejemplo. Vea algunas discusiones y ejemplos aquí .
Sin embargo, si tenemos en cuenta que los predictores pueden transformarse para ajustarse a relaciones curvas, la linealidad en los parámetros también se corresponde con la linealidad en esos predictores transformados.
Además, muchos problemas son casi lineales (al menos en el rango de valores que se consideran), o son tan ruidosos que cualquier curvatura leve no es discernible, y una variedad de modelos simples para una relación creciente o decreciente podría servir - y en ese caso una opción lineal puede ser tanto adecuada como la más simple de ajustar y entender.
En qué facetas de un proyecto pensaría un estadístico experimentado si estuviera en mi lugar, buscando una pregunta+datos que se adapten bien a la regresión lineal.
El único momento en el que podría buscar un problema al que aplicar la regresión sería cuando intento encontrar un buen ejemplo para enseñar. Cuando me encuentro en la situación de hacer un trabajo estadístico (en lugar de explicarlo o enseñarlo), elijo la metodología para que se adapte a la cuestión de interés (y a las características de los datos), en lugar de elegir los datos para que se adapten al método.
Imagina a un carpintero, por ejemplo. El carpintero no coge una escobilla y dice "¿qué puedo usar? este en". Más bien, el carpintero tiene un problema que resolver, y al considerar las características del problema ("¿qué estoy tratando de hacer?" y "¿qué tipo de madera estoy usando?" y así sucesivamente...) determinadas herramientas pueden ser más relevantes que otras. A veces, las herramientas disponibles pueden limitar u orientar las elecciones (si no tienen un rascador de radios, puede que tenga que conformarse con otra cosa... o puede que simplemente tenga que ir a comprar un rascador de radios).
Sin embargo, supongamos que tiene un estadístico de bolsillo que le ayuda usted y estás tratando de encontrar un problema adecuado para la regresión lineal. Entonces podrían sugerirte que consideres varios supuestos de regresión y cuándo son importantes. Voy a mencionar algunas cosas.
Si simplemente está interesado en ajustar una relación entre y y algún univariante (posiblemente transformado) x la mayoría de los supuestos no te importan necesariamente (el teorema de Gauss-Markov puede ser de cierta relevancia). Se buscaría un caso en el que se piense que $E(y|g(x))$ es aproximadamente lineal en $g(x)$ para algunos - conocidos - $g$ (es decir, asume que conocemos la forma funcional de la relación que queremos). Escribir $x^*=x$ necesitamos que $E(y|x^*)=a+bx*$ es al menos aproximadamente cierto.
Si se puede utilizar la regresión múltiple, tampoco es un problema importante, ya que se pueden utilizar (por ejemplo) splines de regresión cúbica para ajustar relaciones bastante generales.
Le sugiero que se mantenga alejado de los datos a lo largo del tiempo a menos que entienda los problemas de la regresión espuria; limítese a los problemas transversales.
Si se trata de un solo $x$ Supongo que querrá un valor continuo en lugar de categórico $x$ .
Se querría no tener error de medición en el $x$ a menos que esté interesado en el condicionamiento de las expectativas en el medido valor.
Si le interesan las pruebas de hipótesis, los intervalos de confianza o los intervalos de predicción, entonces pueden importar más los supuestos habituales de la regresión (pero hay alternativas que no hacen esos supuestos y, en algunos casos, al menos algunos de los supuestos pueden no ser particularmente importantes de todos modos).
Así que una cosa que al menos hay que tratar de tener en cuenta es cuáles son esas suposiciones que se hacen al derivar los procedimientos inferenciales que estás utilizando y cuán importantes pueden ser en tu problema particular (como ejemplo, al realizar las pruebas de hipótesis habituales, la normalidad es una suposición, pero en muestras grandes esa suposición puede no ser importante; por otro lado, la suposición de varianza constante puede ser más un problema).
Hay una serie de posts que discuten los supuestos de regresión, y algunos posts que discuten cuándo es necesario hacerlos, y cuánto pueden importar, e incluso en qué orden considerarlos.
3 votos
Me gusta que estés aprendiendo una técnica y que quieras saber dónde va a funcionar. Pero para los estadísticos experimentados (y los científicos con mentalidad estadística) la situación es totalmente distinta: hay un problema y unos datos, y entonces la cuestión es qué tipo de modelos y métodos son la mejor opción. Verá que la regresión lineal, tal y como se encuentra por primera vez, es sólo un tipo de modelo; con la experiencia, la gente está dispuesta a pasar a la regresión de Poisson, a la regresión logit, etc., e incluso la linealidad de los parámetros puede combinarse fácilmente con estructuras más generales.
0 votos
Y, por supuesto, los modelos de series temporales cuando las observaciones están potencialmente autocorrelacionadas
3 votos
En realidad, los modelos lineales se utilizan a diestro y siniestro incluso cuando sabemos que la relación es no lineal. Piensa en un modelo lineal como una aproximación de primer orden, una especie de expansión de Taylor multivariante.