Estoy interesado en una medida para la calidad del ajuste a una curva que distinga los dos casos que se muestran en la siguiente imagen (sin abordar el hecho de que por cierto el de la derecha tiene más muestras, sino abordando la forma en que "determina" la curva de una manera mejor): Supongamos que quiero ajustar una parábola a estos datos. ¿Existe alguna medida conocida para ello?
Respuestas
¿Demasiados anuncios?Si se utiliza el ajuste de mínimos cuadrados, el segundo caso puede tener una matriz mejor acondicionada, pero esta medida puede ser difícil de calcular en la práctica. Aun así, va a ser algo en este lugar porque la historia no es que la segunda curva sea una mejor aproximación que la primera, sino que es "más única", por así decirlo, y eso es exactamente lo que mide el número de condición para las soluciones de los sistemas lineales.
Por supuesto, como estamos hablando de soluciones aproximadas, no exactas, podemos modificar un poco la noción de número de condición. Una posible cantidad que parece relevante para la "unicidad aproximada" es la siguiente: el problema del mínimo cuadrático es simplemente la minimización de una forma cuadrática $Q(x)$ y si $y$ es la solución, entonces $Q(x)=Q(y)+(A(x-y),(x-y))$ . Ahora, queremos ver cuál es la penalización por alejarse del vector óptimo. Así, tanto $\frac{\mbox{Tr\,}A}{Q(y)}$ y $\frac{\mu(A)}{Q(y)}$ donde $\mu(A)$ es el menor valor propio de $A$ parecen tener sentido como medidas de dicha penalización. Cuanto más alto sea este número, más única es la aproximación. La razón del denominador es que quería medir los tamaños de las desviaciones que cambian el mínimo en un determinado porcentaje. Es posible que desee hacer el error absoluto en su lugar, o algo más. Puede ser una buena idea para averiguar lo que las propiedades de invarianza que desea de su medida en primer lugar. Por ejemplo, ¿debe ser invariante con respecto a los estiramientos o crees que dos puntos cercanos determinan una línea con menos precisión que dos puntos distantes?
Si utiliza regresión lineal para calcular dichas parábolas, entonces el Coeficiente de correlación de Pearson es una buena medida de la calidad del ajuste.
Si he entendido bien, ¿quieres demostrar que el conjunto de datos de la derecha define mejor la curva? Hay muchas maneras de hacerlo, aquí hay dos:
A) Demuestra que un conjunto de datos deja menos incertidumbre sobre los parámetros de la curva que el otro. En un entorno clásico, se ajustarían los parámetros mediante algún tipo de regresión y se compararían las barras de error de los parámetros ajustados. En un entorno bayesiano, podrías comparar las dos distribuciones posteriores, tal vez mostrando que una tiene una entropía posterior menor que la otra.
B) Demuestra que un conjunto de datos conduce a una mejor capacidad de predicción. Utilice la validación cruzada para calcular una estimación del error de generalización en cada conjunto de datos y compárelo.