2 votos

¿Cómo comparar modelos de regresión para dos conjuntos de datos diferentes?

En busca de más ayuda y para ampliar mis conocimientos sobre el tema de la regresión.

Así que estoy intentando comparar modelos de regresión con dos conjuntos de datos diferentes A y B.

Utilizando el conjunto de datos A, ajusté el modelo de regresión y= mx1+ nx2 + c, lo que dio rqs =95%.

Quiero saber lo bien que funciona este modelo para el conjunto de datos B. He intentado comprenderlo utilizando dos métodos.

  1. Utilizando las mismas variables x1 y x2, ajuste el modelo de regresión para el conjunto de datos B que me da y=ox1+px2=c (coeficientes e intercepto diferentes) con r cuadrado = 75%.

  2. He utilizado la ecuación de regresión obtenida en el ajuste original y= mx1+ nx2 + c y he introducido los valores x1 y x2 del conjunto de datos B para obtener los valores predichos de y. A continuación, he comparado los valores reales de y con los valores predichos de y y he evaluado el valor cuadrático r.

¿Es válido alguno de estos métodos? ¿O existe un método mejor para comparar modelos de regresión? Tengo algunas limitaciones iniciales con el uso del método 2, ya que el modelo se ajusta los valores reales a un valor predicho de una predicción. ¿Puede alguien ayudarme a entender esto?

1voto

Owen Fraser-Green Puntos 642

https://en.wikipedia.org/wiki/Chow_test discute la PRUEBA CHOW que se puede utilizar para probar la hipótesis de un conjunto común de parámetros sobre k grupos ( 2 en su caso ). Yo lo utilizo habitualmente en un contexto de series temporales para DETECTAR el momento en que los parámetros del modelo cambian significativamente.

0voto

Alex Puntos 9

Si queremos ser precisos, existe una brecha lógica entre ambos métodos. El primer método pretende evaluar si las mismas variables describen significativamente los datos del conjunto de datos 2. Mientras que el segundo método evalúa el rendimiento fuera de la muestra de la ecuación estimada en el primer conjunto de datos (es decir, la capacidad de utilizar la ecuación estimada en el conjunto de datos 1 para predecir la variable dependiente en el conjunto de datos 2). Evidentemente, existe una diferencia lógica, ya que en el primer método sólo se examinan las variables comunes (con cualquier coeficiente), mientras que en el segundo se comprueba la viabilidad de utilizar la relación exacta estimada en el conjunto de datos 1 para interpretar el conjunto de datos 2. Por lo tanto, depende de cuál sea su objetivo. Así que depende de cuál sea su propósito quizá los dos conjuntos de datos compartan las mismas variables relevantes pero con coeficientes muy diferentes (en este caso puede que el primer método diga que las variables son las mismas, porque las mismas variables son significativas en ambos conjuntos de datos, pero sus "verdaderos coeficientes" varían significativamente entre los dos conjuntos de datos, así que el segundo método da resultados decepcionantes porque la primera ecuación tiene un mal rendimiento en términos de ajuste en la segunda base de datos)

Por lo tanto, si su objetivo es predecir el conjunto de datos 2 basándose en la información del conjunto de datos 1 (como creo leyendo la descripción de su problema), elija el segundo método en cambio, si desea evaluar si las dos variables comunes son significativas en ambos conjuntos de datos (independientemente de la forma de la relación y de los coeficientes), elija el método 1 y compruebe si una o ambas variables son significativas para el modelo en los conjuntos de datos 1 y 2 (independientemente de los coeficientes).

También apoyo la solución de @IrishStat (votada como tal), para comprobar si los parámetros de la relación cambian en las dos muestras

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X