12 votos

Indicios de que un problema es adecuado para la regresión lineal

Estoy aprendiendo la regresión lineal utilizando Introducción al análisis de regresión lineal por Montgomery, Peck y Vining . Me gustaría elegir un proyecto de análisis de datos.

Tengo la ingenua idea de que la regresión lineal sólo es adecuada cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no parece que muchas aplicaciones del mundo real cumplan este criterio. Sin embargo, la regresión lineal está tan extendida.

En qué facetas de un proyecto pensaría un estadístico experimentado si estuviera en mi lugar, buscando una pregunta+datos que se adapten bien a la regresión lineal.

3 votos

Me gusta que estés aprendiendo una técnica y que quieras saber dónde va a funcionar. Pero para los estadísticos experimentados (y los científicos con mentalidad estadística) la situación es totalmente distinta: hay un problema y unos datos, y entonces la cuestión es qué tipo de modelos y métodos son la mejor opción. Verá que la regresión lineal, tal y como se encuentra por primera vez, es sólo un tipo de modelo; con la experiencia, la gente está dispuesta a pasar a la regresión de Poisson, a la regresión logit, etc., e incluso la linealidad de los parámetros puede combinarse fácilmente con estructuras más generales.

0 votos

Y, por supuesto, los modelos de series temporales cuando las observaciones están potencialmente autocorrelacionadas

3 votos

En realidad, los modelos lineales se utilizan a diestro y siniestro incluso cuando sabemos que la relación es no lineal. Piensa en un modelo lineal como una aproximación de primer orden, una especie de expansión de Taylor multivariante.

12voto

AdamSane Puntos 1825

Tengo la ingenua idea de que la regresión lineal sólo es adecuada cuando se sospecha que existen relaciones funcionales lineales entre las variables explicativas y la variable de respuesta. Pero no parece que muchas aplicaciones del mundo real cumplan este criterio.

Esto no es una comprensión correcta de lo que es "lineal" en la "regresión lineal".

No es la relación entre $y$ y el $x$ 's que se supone que es de forma lineal (aunque todos los ejemplos elementales son susceptibles de engañar).

Lo de "lineal" se refiere a que el modelo es lineal en los parámetros, y las relaciones no lineales entre $y$ y algunos $x$ ciertamente puede ser modelado de esa manera.

Hay un ejemplo con un solo predictor aquí pero los modelos curvilíneos se ajustan más a menudo como regresión múltiple, en la que pueden aparecer varias funciones de un predictor (variable x, variable independiente) en la regresión, lo que permite una gran flexibilidad. Esto incluye la regresión polinómica, por ejemplo. Vea algunas discusiones y ejemplos aquí .

Sin embargo, si tenemos en cuenta que los predictores pueden transformarse para ajustarse a relaciones curvas, la linealidad en los parámetros también se corresponde con la linealidad en esos predictores transformados.

Además, muchos problemas son casi lineales (al menos en el rango de valores que se consideran), o son tan ruidosos que cualquier curvatura leve no es discernible, y una variedad de modelos simples para una relación creciente o decreciente podría servir - y en ese caso una opción lineal puede ser tanto adecuada como la más simple de ajustar y entender.

En qué facetas de un proyecto pensaría un estadístico experimentado si estuviera en mi lugar, buscando una pregunta+datos que se adapten bien a la regresión lineal.

El único momento en el que podría buscar un problema al que aplicar la regresión sería cuando intento encontrar un buen ejemplo para enseñar. Cuando me encuentro en la situación de hacer un trabajo estadístico (en lugar de explicarlo o enseñarlo), elijo la metodología para que se adapte a la cuestión de interés (y a las características de los datos), en lugar de elegir los datos para que se adapten al método.

Imagina a un carpintero, por ejemplo. El carpintero no coge una escobilla y dice "¿qué puedo usar? este en". Más bien, el carpintero tiene un problema que resolver, y al considerar las características del problema ("¿qué estoy tratando de hacer?" y "¿qué tipo de madera estoy usando?" y así sucesivamente...) determinadas herramientas pueden ser más relevantes que otras. A veces, las herramientas disponibles pueden limitar u orientar las elecciones (si no tienen un rascador de radios, puede que tenga que conformarse con otra cosa... o puede que simplemente tenga que ir a comprar un rascador de radios).

Sin embargo, supongamos que tiene un estadístico de bolsillo que le ayuda usted y estás tratando de encontrar un problema adecuado para la regresión lineal. Entonces podrían sugerirte que consideres varios supuestos de regresión y cuándo son importantes. Voy a mencionar algunas cosas.

Si simplemente está interesado en ajustar una relación entre y y algún univariante (posiblemente transformado) x la mayoría de los supuestos no te importan necesariamente (el teorema de Gauss-Markov puede ser de cierta relevancia). Se buscaría un caso en el que se piense que $E(y|g(x))$ es aproximadamente lineal en $g(x)$ para algunos - conocidos - $g$ (es decir, asume que conocemos la forma funcional de la relación que queremos). Escribir $x^*=x$ necesitamos que $E(y|x^*)=a+bx*$ es al menos aproximadamente cierto.

Si se puede utilizar la regresión múltiple, tampoco es un problema importante, ya que se pueden utilizar (por ejemplo) splines de regresión cúbica para ajustar relaciones bastante generales.

Le sugiero que se mantenga alejado de los datos a lo largo del tiempo a menos que entienda los problemas de la regresión espuria; limítese a los problemas transversales.

Si se trata de un solo $x$ Supongo que querrá un valor continuo en lugar de categórico $x$ .

Se querría no tener error de medición en el $x$ a menos que esté interesado en el condicionamiento de las expectativas en el medido valor.

Si le interesan las pruebas de hipótesis, los intervalos de confianza o los intervalos de predicción, entonces pueden importar más los supuestos habituales de la regresión (pero hay alternativas que no hacen esos supuestos y, en algunos casos, al menos algunos de los supuestos pueden no ser particularmente importantes de todos modos).

Así que una cosa que al menos hay que tratar de tener en cuenta es cuáles son esas suposiciones que se hacen al derivar los procedimientos inferenciales que estás utilizando y cuán importantes pueden ser en tu problema particular (como ejemplo, al realizar las pruebas de hipótesis habituales, la normalidad es una suposición, pero en muestras grandes esa suposición puede no ser importante; por otro lado, la suposición de varianza constante puede ser más un problema).

Hay una serie de posts que discuten los supuestos de regresión, y algunos posts que discuten cuándo es necesario hacerlos, y cuánto pueden importar, e incluso en qué orden considerarlos.

0 votos

Buena respuesta, pero creo que no responde completamente a la pregunta. En qué facetas de un proyecto pensaría un estadístico experimentado si estuviera en mi lugar, buscando una pregunta+datos que se adapten bien a la regresión lineal. sigue sin respuesta.

0 votos

@Dawny33 Definitivamente tengo la intención de añadir más a esto más tarde - algunas cosas surgieron mientras estaba escribiendo eso que me impidió escribir la respuesta completa que originalmente pretendía; sólo tuve tiempo para terminar la frase en la que estaba, y ahora puede que no vuelva a ella durante un día o dos. De hecho, ni siquiera he tenido tiempo de corregir todas las erratas que contenía. (Por otro lado, señalar que la premisa de la pregunta es defectuosa puede llevar al OP a querer preguntar cosas diferentes a las que pretendía originalmente (suele ocurrir cuando falla la premisa central)

0 votos

Por ejemplo, anticipo que una nueva pregunta que podría surgir sería "¿tiene un ejemplo?".

4voto

dan90266 Puntos 609

Además de las excelentes respuestas anteriores, existen requisitos generales para que el modelo lineal funcione razonablemente bien, principalmente relacionados con $Y$ . $Y$ debe tener un buen comportamiento en el sentido de no tener valores extremos que influyan excesivamente en el ajuste del modelo. En segundo lugar, $Y$ debe transformarse afortunadamente para que el modelo tenga una esperanza de ser aditivo y para que los residuos sean gaussianos (si se hace inferencia). Los analistas suelen cometer el error de probar más de 2 transformaciones de $Y$ para satisfacer los supuestos del modelo, lo que distorsiona la inferencia final. Una forma más sencilla de decir esto es que tenemos que entender ya el $Y$ distribución (condicionada a $X$ ) bien. A lo largo de muchos años de experiencia verá que ciertas variables, como la presión arterial, tienden a comportarse bien en un modelo lineal y otras (por ejemplo, las mediciones de química sanguínea) no.

Todo esto contrasta con los modelos semiparamétricos que sólo suponen $Y$ es ordinal, son completamente robustos a valores extraños, y no se preocupan de cómo $Y$ se transforma. Los modelos de probabilidades proporcionales y de riesgos proporcionales son dos clases de modelos de ejemplo.

0 votos

Gracias por señalar el aspecto de ser bien portado. He pensado en transformaciones de los regresores, pero no de la variable de respuesta. Sin embargo, ahora veo cómo se podría utilizar esta última para remodelar la distribución de los residuos. Gracias por rellenar parte del cuadro. Un post muy útil.

3voto

Zizzencs Puntos 1358

@Glen_b dio una muy buena respuesta pero, como se ha señalado, no llegó a terminar.

Así que, en cuanto a su última pregunta:

Creo que un estadístico experimentado no haría esta pregunta. Como señala Glen, el problema dicta las herramientas que hay que utilizar, y no al revés.

Si intentara aprender una técnica como la regresión lineal, utilizaría ejemplos ya trabajados, pero con datos reales, no con datos inventados para facilitar las cosas. Un libro como Modelización de la regresión mediante el ejemplo puede servir de orientación.

Sin embargo, uno de los primeros pasos a la hora de analizar un problema de regresión es decidir si la regresión lineal es, de hecho, adecuada.

0 votos

Creo que un estadístico experimentado no haría esta pregunta. Sí, por eso he matizado mi pregunta con "en mis zapatos". Muchas gracias por la recomendación del libro. Buscaré un ejemplar. Un montón de ejemplos ayudaría al menos como la mitad de la historia, con contraejemplos siendo la otra mitad.

0 votos

Ahhh, ¡una cita! de la página 2 de la 4ª edición: Invitamos a los lectores a pensar en cuestiones (en sus propios ámbitos de trabajo, investigación o interés) que puedan abordarse mediante el análisis de regresión.

0voto

Leslie Puntos 1

En muchas respuestas se han mencionado los supuestos que deben cumplirse: linealidad en los residuos, homogeneidad de la varianza en el rango del predictor, ausencia de valores extremos que puedan influir en la línea de regresión y observaciones independientes. Los gráficos de residuos son bastante fáciles de producir con la mayoría de los programas de regresión y algunos paquetes los proporcionan automáticamente (SAS).

Una persona habló de transformar y. Esta es una práctica común en algunas áreas, pero es una práctica que conduce a resultados sesgados y posiblemente no interpretables. El sesgo aparece cuando se intenta retrotransformar los resultados a la métrica original. Es mejor cambiar a otro tipo de regresión que tenga un patrón residual que coincida con los supuestos de distribución del residuo. Véase el capítulo 3 de la obra de Agresti Introducción al análisis de datos categóricos donde introduce el concepto de enlaces. Varios libros de texto sobre regresión también introducen el modelo lineal generalizado.

0 votos

No comparto el pesimismo sobre la transformación. Después de todo, la transformación original es bastante arbitraria. Si se transforma y se obtienen residuos con una distribución simétrica, la retrotransformación de los valores predichos es la mediana predicha en la escala original. Las medianas predichas son bastante útiles. Si quieres obtener las medias predichas en la escala original, puedes utilizar el estimador de manchas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X