23 votos

Ejemplos avanzados de modelado de regresión

Estoy buscando un estudio de caso avanzado de regresión lineal que ilustre los pasos necesarios para modelar relaciones no lineales complejas y múltiples usando GLM o OLS. Es sorprendentemente difícil encontrar recursos que vayan más allá de ejemplos básicos de la escuela: la mayoría de los libros que he leído no van más allá de una transformación logarítmica de la respuesta combinada con un BoxCox de un predictor, o un spline natural en el mejor de los casos. Además, todos los ejemplos que he visto hasta ahora abordan cada problema de transformación de datos en un modelo aparte, a menudo en un modelo de un solo predictor.

Sé lo que es una transformación BoxCox o YeoJohnson. Lo que estoy buscando es un estudio de caso detallado y de la vida real donde la respuesta/relación no sean claras. Por ejemplo, la respuesta no es estrictamente positiva (por lo que no se puede usar logaritmo o BoxCox), los predictores tienen relaciones no lineales entre sí y contra la respuesta, y las transformaciones de datos de máxima verosimilitud no parecen implicar un exponente estándar de 0,33 o 0,5. Además, se encuentra que la varianza residual no es constante (nunca lo es), por lo que la respuesta también debe ser transformada y se tendrán que tomar decisiones entre una regresión de familia GLM no estándar o una transformación de respuesta. El investigador probablemente tomará decisiones para evitar el sobreajuste de los datos.

EDITAR

Hasta ahora he recopilado los siguientes recursos:

  • Estrategias de Modelado de Regresión, F. Harrell
  • Series Temporales Econometría Aplicada, W. Enders
  • Modelos Lineales Dinámicos con R, G. Petris
  • Análisis de Regresión Aplicada, D. Kleinbaum
  • Una Introducción al Aprendizaje Estadístico, G. James/D. Witten

Sólo he leído el último (ISLR) y es un texto muy bueno (cinco estrellas en mi opinión), aunque más orientado hacia el aprendizaje automático que hacia el modelado de regresión avanzado.

También hay este buen post en CV que presenta un caso de regresión desafiante.

8 votos

Creo que el libro de Frank Harrells (amazon.com/…) podría ser útil.

0 votos

@AdamRobinsson Veo que la tabla de contenido abarca varios temas relevantes (modelos multivariables, splines, multicolinealidad), pero ¿se ilustran esas metodologías juntas en un ejemplo de la vida real o se explica cada tema por separado? Porque normalmente en ejemplos de la vida real todos los problemas te llegan al mismo tiempo y nunca es obvio cómo gestionarlos bien.

1 votos

Todavía no he leído todo el libro, pero las primeras 150 páginas han sido absolutamente geniales (no soy un estadístico, solo un entusiasta). Los ejemplos son extensos y detallados. El libro está acompañado por el paquete RMS (estrategias de modelado de regresión) para R. También he revisado el libro competidor de David Kleinbaum (desafortunadamente olvidé el título) pero contenía mucho menos sobre estrategias y ejemplos (y era el doble de caro).

10voto

Nathan Long Puntos 30303

Estrategias de modelado de regresión e ISLR, que ya han sido mencionados por otros, son dos sugerencias muy buenas. Tengo algunas otras que podrías considerar.

Modelado Predictivo Aplicado por Kuhn y Johnson contiene varios estudios de casos interesantes y es bastante práctico.

Ciencia de Datos Práctica con R trata el modelado práctico (de regresión) en el contexto de sus aplicaciones, principalmente como modelos predictivos en una situación empresarial.

Modelos Aditivos Generalizados: Una Introducción con R de Simon Wood es un buen tratamiento de modelos aditivos generalizados y cómo ajustarlos usando su paquete mgcv para R. Contiene algunos ejemplos prácticos no triviales. El uso de modelos GAM es una alternativa para determinar la "transformación" correcta de manera adaptativa a través de una expansión spline y una estimación máxima verosimilitud penalizada. Sin embargo, todavía hay otras elecciones que deben hacerse, por ejemplo, la elección de la función de enlace.

El paquete mboost para R también ajusta modelos GAM pero utilizando un enfoque diferente a través del boosting. Recomiendo el tutorial del paquete (uno de los Vignettes).

También mencionaré Descubrimiento de Modelos Empíricos y Evaluación de Teorías por Hendry y Doornik, aunque yo mismo aún no he leído este libro. Me lo habían recomendado.

0 votos

Applied Predictive Modeling... más o menos. Prefiero ISLR.

5voto

rnso Puntos 2424

Uno de los mejores materiales del curso que puedes encontrar sobre regresión avanzada, múltiple, compleja (incluyendo no lineal) está basado en el libro Estrategias de Modelado de Regresión de Frank E. Harrell Jr.

El libro está siendo discutido en los comentarios pero no este material, que de por sí es un gran recurso.

2voto

Zachary Blumenfeld Puntos 1543

Recomendaría el libro Mostly Harmless Econometrics de Joshua D. Angrist y Jörn-Steffen Pischke

Este es el texto más realista y práctico que poseo y es súper económico, alrededor de $26.00 nuevo. El libro está escrito para el estadístico/economista graduado, por lo que es bastante avanzado.

Ahora, este libro no es exactamente lo que estás buscando en el sentido de que no se enfoca tanto en "relaciones no-lineales complejas múltiples" como en fundamentos básicos como endogeneidad, interpretación y diseño de regresiones ingeniosas.

Pero ofrezco este libro para tratar de hacer un punto. Que es, cuando se trata de la aplicación del análisis de regresión en el mundo real, los problemas más desafiantes generalmente no tienen que ver con el hecho de que nuestros modelos no son lo suficientemente complejos... ¡créeme, somos bastante buenos para inventar modelos muy complejos! Más bien, los mayores problemas son cosas como

  1. Endogeneidad
  2. No tener todos los datos que necesitamos
  3. Tener demasiados datos... ¡y todo es un desastre!
  4. Demasiadas personas no pueden interpretar correctamente sus propios modelos (un problema que se vuelve más prevalente a medida que hacemos los modelos más complejos)

Un entendimiento firme de GMM, filtros no-lineales y regresión no-paramétrica cubre prácticamente todos los temas que has mencionado y se pueden aprender a medida que avanzas. Sin embargo, con datos del mundo real, estos marcos tienen el potencial de ser innecesariamente complejos, a menudo perjudicialmente.

Con demasiada frecuencia, la capacidad de ser ingeniosamente simple en lugar de completamente generalizado y altamente sofisticado, es lo que más te beneficia en el análisis del mundo real. Este libro te ayudará con lo primero.

1voto

Puedes consultar la Introducción al Aprendizaje Estadístico con R (ISLR), el libro habla sobre splines y regresión polinómica en detalle con ejemplos.

1voto

Aksakal Puntos 11351

No estoy seguro cuál es el objetivo de tu pregunta. Puedo recomendar el texto de Análisis Econométrico de Greene Econometric Analysis. Tiene muchas referencias a papers en su interior. Prácticamente cada ejemplo en el libro hace referencia a un paper publicado.

Para darte una idea, mira el Ejemplo 7.6 "Efectos de Interacción en un Modelo Loglineal para Ingresos" en la pág. 195. Hace referencia a un paper y al conjunto de datos: Regina T. Riphahn, Achim Wambach, y Andreas Million, "Efectos de Incentivos en la Demanda de Atención Médica: Una Estimación Bivariante de Datos de Conteo de Panel", Revista de Econometría Aplicada, Vol. 18, No. 4, 2003, pp. 387-405.

El ejemplo trata sobre el uso de modelos loglineales y los efectos de interacción. Puedes leer el paper completo, o la descripción de este libro al respecto. Este no es un caso de uso inventado. Es una investigación real publicada. Así es como la gente realmente utiliza los métodos estadísticos en la investigación económica.

Como escribí, el libro está plagado de casos de uso como este sobre el uso de métodos estadísticos avanzados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X