R2 por sí sola no es una buena medida de la bondad del ajuste, pero no vamos a entrar en eso aquí, excepto para observar que parsimonia se valora en el modelado.
Para ello, hay que tener en cuenta que las técnicas habituales de análisis exploratorio de datos (EDA) y la regresión (pero pas paso a paso u otros procedimientos automatizados) sugieren utilizar un modelo lineal de la forma
√f=a+b∗c+a∗b∗c+constant+error
Utilizando OLS, se consigue una R2 por encima de 0,99. Ante tal resultado, uno se siente tentado de elevar al cuadrado ambos lados y hacer una regresión f en a , b∗c , a∗b∗c , y todas sus plazas y productos. Esto produce inmediatamente un modelo
f=a2+b∗c+constant+error
con un MSE de raíz inferior a 34 y un ajustado R2 de 0,9999 . Los coeficientes estimados de 1,0112 y 0,988 sugieren que los datos pueden ser generados artificialmente con la fórmula
f=a2+b∗c+50
más un pequeño error normalmente distribuido de SD aproximadamente igual a 50.
Editar
En respuesta a las sugerencias de @knorv, continué el análisis. Para ello utilicé las técnicas que me habían dado resultado hasta ahora, empezando por inspeccionar las matrices de dispersión de los residuos frente a las variables originales. Efectivamente, había un claro indicio de correlación entre a y los residuos (aunque la regresión OLS de f contra a , a2 y b∗c hizo pas indicar a era "significativo"). Siguiendo con esta línea, exploré todas las correlaciones entre los términos cuadráticos a2,…,e2,a∗b,a∗c,…,d∗e y los nuevos residuos y se encontró una relación ínfima pero altamente significativa con b2 . "Altamente significativo" significa que todo este fisgoneo implicó el análisis de unas 20 variables diferentes, por lo que mi criterio de significación en esta expedición de pesca fue aproximadamente 0,05/20 = 0,0025: cualquier cosa menos estricta podría ser fácilmente un artefacto de la búsqueda de ajustes.
Esto tiene algo del sabor de un modelo físico en el sentido de que esperamos, y por tanto buscamos, relaciones con coeficientes "interesantes" y "simples". Así, por ejemplo, al ver que el coeficiente estimado de b2 era de -0,0092 (entre -0,005 y -0,013 con una confianza del 95%), he optado por utilizar -1/100 para ello. Si se tratara de otro conjunto de datos, como las observaciones de un sistema social o político, no haría tales cambios, sino que utilizaría las estimaciones OLS tal cual.
De todos modos, un ajuste mejorado viene dado por
f=a+a2+b∗c−b2/100+30.5+error
con un residuo medio 0 La desviación estándar es de 26,8, todos los residuos se sitúan entre -50 y +43, y no hay indicios de no normalidad (aunque con un conjunto de datos tan pequeño los errores podrían incluso estar distribuidos uniformemente y no se podría apreciar la diferencia). La reducción de la desviación estándar residual de alrededor de 50 a alrededor de 25 se expresaría a menudo como "explicar el 75% de la varianza residual".
No pretendo que esto sea el fórmula utilizada para generar los datos . Los residuos son lo suficientemente grandes como para permitir algunos cambios bastante importantes en algunos de los coeficientes. Por ejemplo, los IC del 95% para los coeficientes de a , b2 y la constante son [-0,4, 2,7], [-0,013, -0,003] y [-7, 61] respectivamente. La cuestión es que si se ha introducido algún error aleatorio en el procedimiento de generación de datos (y eso es cierto para todo datos del mundo real), eso impediría la identificación definitiva de los coeficientes (e incluso de todas las variables que pudieran estar implicadas). Eso no es una limitación de los métodos estadísticos: es sólo un hecho matemático.
Por cierto, utilizando la regresión robusta puedo ajustar el modelo
f=1.0103a2+0.99493b∗c−0.007b2+46.78+error
con una SD residual de 27,4 y todos los residuos entre -51 y +47: esencialmente tan bueno como el ajuste anterior pero con una variable menos. Es más parsimonioso en ese sentido, pero menos parsimonioso en el sentido de que no he redondeado los coeficientes a valores "bonitos". No obstante, esta es la forma que normalmente favorecería en un análisis de regresión sin ninguna teoría rigurosa sobre qué tipo de valores deberían tener los coeficientes y qué variables deberían incluirse.
Es probable que haya otras relaciones fuertes al acecho pero tendrían que ser bastante complicados. Por cierto, tomar datos cuya DE original es 3410 y reducir su variación a residuos con una DE de 27 es un 99.99384% reducción de la varianza (el R2 de este nuevo ajuste). Se seguiría buscando efectos adicionales sólo si la DS residual es demasiado grande para el propósito previsto. En ausencia de cualquier otro propósito que no sea el de cuestionar el PO, es el momento de parar.