Al utilizar modelos de regresión siento receloso de impago a una hipótesis de asociación lineal; en lugar de eso me gusta explorar la forma funcional de las relaciones entre el dependiente y las variables explicativas utilizando el test no paramétrico de suavizado de regresión (por ejemplo, modelos aditivos generalizados, lowess/lowess, ejecución de la línea de suavizadores, etc.) antes de la estimación de un modelo paramétrico utilizando, según proceda, no lineal de mínimos cuadrados de la regresión para estimar los parámetros de las funciones sugeridas por el test no paramétrico de modelo.
Lo que es una buena manera de pensar acerca de la realización de la validación cruzada en el test no paramétrico de suavizado de la fase de regresión de este enfoque? Me pregunto si yo podría encontrarse en una situación donde en el azar de exclusión de la muestra Una relación aproximada por una "broken stick" lineal de la bisagra de la función podría ser evidente, mientras que la exclusión de la muestra B se sugiere una relación que sería mejor aproximar por una parabólica umbral de la bisagra de la función.
Uno de ellos tendría que tomar un no-exhaustiva de retener algunos seleccionados al azar de la porción de los datos, realizar el test no paramétrico de regresión, interpretar plausible formas funcionales para el resultado, y repetir esto unas cuantas humana (manejables) número de veces y mentalmente tally plausible formas funcionales?
O uno de ellos tendría que tomar un acercamiento exhaustivo (por ejemplo, LOOCV), y el uso de algún algoritmo para 'suave suaviza' y que más de la suaviza para informar plausible formas funcionales? (Aunque, pensándolo bien, creo que LOOCV es muy poco probable que resulte en muy diferentes de las relaciones funcionales desde una forma funcional en una muestra bastante grande es raro ser alterado por un solo punto de datos.)
Mis aplicaciones normalmente implican humanos-manejable número de variables predictoras (un puñado de una docena de, digamos), pero mi tamaños de muestra van desde unos pocos cientos a unos pocos cientos de miles. Mi objetivo es producir un intuitivamente comunicada y de fácil adaptación modelo que pueda ser utilizado para hacer predicciones de las personas con conjuntos de datos distinta a la mía, y que no incluyen las variables de resultado.
Las referencias en las respuestas muy bienvenida.