Estoy ejecutando modelos de regresión LOESS en R, y quiero comparar los resultados de 12 modelos diferentes con distintos tamaños de muestra. Puedo describir los modelos reales con más detalles si ayuda a responder la pregunta.
Aquí están los tamaños de las muestras:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
El modelo de regresión LOESS es un ajuste de superficie, donde la ubicación X y la ubicación Y de cada lanzamiento de béisbol se utiliza para predecir la probabilidad de swinging strike. Sin embargo, me gustaría comparar entre los 12 modelos, pero si se establece el mismo intervalo (es decir, intervalo = 0,5) se obtendrán resultados diferentes, ya que hay una amplia gama de tamaños de muestra.
Mi pregunta básica es ¿cómo se determina la envergadura de su modelo? Un intervalo más alto suaviza más el ajuste, mientras que un intervalo más bajo capta más tendencias pero introduce ruido estadístico si hay muy pocos datos. Yo utilizo un intervalo más alto para tamaños de muestra más pequeños y un intervalo más bajo para tamaños de muestra más grandes.
¿Qué debo hacer? ¿Cuál es una buena regla general a la hora de establecer el span para los modelos de regresión LOESS en R? Gracias de antemano.