En estadística hacemos regresiones lineales, las más primitivas. En general, sabemos que cuanto mayor sea el R2 mejor, pero ¿hay alguna vez un escenario en el que un alto R2 ¿sería un modelo inútil?
Respuestas
¿Demasiados anuncios?Sí, los criterios para evaluar un modelo estadístico dependen del problema específico que se trate y no son una función mecánica de R2 o la significación estadística (aunque son importantes). La pregunta relevante es: "¿ayuda el modelo a entender los datos?".
Regresiones sin sentido con R2
-
La forma más sencilla de colocarse R2 es hacer algún equivalente de regresión de los zapatos derechos sobre los zapatos izquierdos. Dime la talla de tu zapato derecho y podré predecir la talla de tu zapato izquierdo con gran exactitud. Enorme R2 ¡! ¡Qué gran modelo estadístico! Excepto que no significa nada. Usted puede obtener gran R2 poniendo la misma variable en el lado izquierdo y derecho de una regresión, pero esta enorme R2 regresión sería casi con toda seguridad inútil.
-
Hay otros casos en los que incluir una variable en el lado derecho es conceptualmente la equivocado que hacer (aunque aumente R2 ). Supongamos que intentas estimar si algún grupo minoritario es discriminado y tiene menos probabilidades de conseguir un empleo. Usted no debería controlar si la empresa devolvió la llamada después de la solicitud de empleo, ya que es menos probable que responda a las solicitudes de empleo de las minorías, ¡porque puede ser el canal a través del cual se produce la discriminación! Añadir un control incorrecto puede hacer que la regresión carezca de sentido.
-
Puede siempre aumentar R2 añadiendo más regresores. Puedo seguir añadiendo regresores a la parte derecha hasta que consiga lo que R2 Me gusta. Para predecir los ingresos laborales, podría añadir controles de educación, controles de edad, efectos fijos de trimestre, efectos fijos de código postal, efectos fijos de ocupación, efectos fijos de empresa, efectos fijos de familia, efectos fijos de mascota, longitud del pelo, etc... en algún momento los controles dejan de tener sentido, pero R2 sigue subiendo. Añadirlo todo como regresor se conoce como regresión de "fregadero de cocina". Se pueden obtener R2 pero puede sobreajustar masivamente los datos: su modelo predice perfectamente la muestra utilizada para estimar el modelo (tiene alta R2 ), pero el modelo estimado falla estrepitosamente con los nuevos datos.
-
La misma idea puede aparecer en el ajuste de curvas polinómicas. Dame datos aleatorios, y probablemente pueda obtener grandes R2 ajustando un polinomio de 200 grados. Sin embargo, con datos nuevos, el polinomio estimado no funcionaría por exceso de ajuste. Una vez más, los R2 para el modelo estimado, pero el modelo estimado es inútil.
-
El punto (3-4) es la razón por la que hemos ajustado R2 lo que supone una cierta penalización por añadir más regresores, pero ajustado R2 puede ser exagerado mediante el sobreajuste de los datos. También tiene la característica maravillosamente absurda de que puede ser negativo.
También podría dar ejemplos en los que la baja R2 está muy bien (por ejemplo, estimar betas en modelos de valoración de activos), pero este post ya se ha alargado bastante. Resumiendo, la pregunta general debería ser algo así como "sabiendo lo que sé sobre el problema y sobre estadística, ¿me ayuda este modelo a entender/explicar los datos?". R2 puede ser una herramienta que ayude a responder a esta pregunta, pero no es tan sencillo como los modelos con mayor R2 siempre son mejores.
"Cuanto más alto, mejor" es una mala regla general para el R-cuadrado.
Hace unos años, Don Morrison escribió unos famosos artículos en los que demostraba que las R-cuadradas cercanas a cero podían seguir siendo procesables y rentables, dependiendo del sector. Por ejemplo, en el marketing directo que predice la respuesta a un envío de suscripciones a revistas a 10 millones de hogares, las R-cuadradas en los dígitos bajos pueden producir campañas rentables (sobre una base de ROI) si el envío se basa en los 2 o 3 deciles superiores de probabilidad de respuesta.
Otro sociólogo (cuyo nombre se me escapa) segmentó las R-cuadradas por tipo de datos y señaló que, en el caso de las encuestas, las R-cuadradas se situaban entre el 10 y el 20%, mientras que en el caso de los datos empresariales, las R-cuadradas se situaban entre el 40 y el 60%. También señalaron que los cuadrados R del 80-90% o superiores probablemente violaban los supuestos fundamentales de la regresión. Sin embargo, este autor no tenía experiencia con la combinación de marketing, los datos de series temporales o los modelos que contienen un conjunto completo de características "causales" (por ejemplo, las 4 "P" clásicas de precio, promoción, lugar y producto) que pueden y producirán R-cuadrados cercanos al 100%.
Dicho esto, incluso las reglas empíricas de evaluación comparativa más sensatas, como éstas, no son de gran ayuda cuando se trata con analfabetos técnicos cuya primera pregunta sobre un modelo predictivo siempre será: "¿Cuál es el R-cuadrado?".
Las otras respuestas ofrecen grandes explicaciones teóricas de las muchas maneras en que los valores R-cuadrado pueden ser arreglados/falsificados/engañados/etc.. He aquí una demostración práctica que siempre se me ha quedado grabada, codificada en r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Esto puede proporcionar valores de R-cuadrado > 0,90. Si se añaden suficientes regresores, incluso los valores aleatorios pueden "predecir" valores aleatorios.