9 votos

Validación cruzada con paramétrica de suavizado de regresiones

Al utilizar modelos de regresión siento receloso de impago a una hipótesis de asociación lineal; en lugar de eso me gusta explorar la forma funcional de las relaciones entre el dependiente y las variables explicativas utilizando el test no paramétrico de suavizado de regresión (por ejemplo, modelos aditivos generalizados, lowess/lowess, ejecución de la línea de suavizadores, etc.) antes de la estimación de un modelo paramétrico utilizando, según proceda, no lineal de mínimos cuadrados de la regresión para estimar los parámetros de las funciones sugeridas por el test no paramétrico de modelo.

Lo que es una buena manera de pensar acerca de la realización de la validación cruzada en el test no paramétrico de suavizado de la fase de regresión de este enfoque? Me pregunto si yo podría encontrarse en una situación donde en el azar de exclusión de la muestra Una relación aproximada por una "broken stick" lineal de la bisagra de la función podría ser evidente, mientras que la exclusión de la muestra B se sugiere una relación que sería mejor aproximar por una parabólica umbral de la bisagra de la función.

Uno de ellos tendría que tomar un no-exhaustiva de retener algunos seleccionados al azar de la porción de los datos, realizar el test no paramétrico de regresión, interpretar plausible formas funcionales para el resultado, y repetir esto unas cuantas humana (manejables) número de veces y mentalmente tally plausible formas funcionales?

O uno de ellos tendría que tomar un acercamiento exhaustivo (por ejemplo, LOOCV), y el uso de algún algoritmo para 'suave suaviza' y que más de la suaviza para informar plausible formas funcionales? (Aunque, pensándolo bien, creo que LOOCV es muy poco probable que resulte en muy diferentes de las relaciones funcionales desde una forma funcional en una muestra bastante grande es raro ser alterado por un solo punto de datos.)

Mis aplicaciones normalmente implican humanos-manejable número de variables predictoras (un puñado de una docena de, digamos), pero mi tamaños de muestra van desde unos pocos cientos a unos pocos cientos de miles. Mi objetivo es producir un intuitivamente comunicada y de fácil adaptación modelo que pueda ser utilizado para hacer predicciones de las personas con conjuntos de datos distinta a la mía, y que no incluyen las variables de resultado.

Las referencias en las respuestas muy bienvenida.

-1voto

jubo Puntos 626

A mí me parece que hay dos confusiones en su pregunta:

  • En primer lugar, lineal (mínimos cuadrados) de regresión no requiere una relación lineal en las variables independientes, pero en los parámetros.

    Por lo tanto $y=a + b \cdot x e^{-x} + c \cdot \frac{z}{1 + x^2}$ puede ser estimado por mínimos cuadrados ordinarios ($y$ es una función lineal de los parámetros $a$, $b$, $c$), mientras que $y = a + b \cdot x + b^2 \cdot z$ no ($y$ es no lineal en el parámetro $b$).

  • Segundo, ¿cómo se determina una "correcta" modelo funcional de un más suave, es decir, ¿cómo ir desde el paso 1 hasta el paso 2?

    Que yo sepa, no hay manera de inferir "que funciona de regresores para el uso de" a partir de técnicas de suavizamiento, tales como estrías, las redes neuronales, etc. Excepto tal vez por el trazado de la atenuación de las salidas, y la determinación de las relaciones por la intuición, pero que no suena muy robusto para mí, y parece que no se necesita de suavizado para esto, diagramas de dispersión.

Si su objetivo final es un modelo de regresión lineal, y su problema es que usted no sabe exactamente cuál es la forma funcional de los regresores debe ser utilizado, sería mejor que fuera directamente la colocación de una regularización de la modelo de regresión lineal (como LAZO) con una gran base de expansión de la original de regresores (como polinomios de los regresores, exponenciales, registros, ...). El procedimiento de regularización se debe entonces elimnate la innecesaria de los regresores, dejando con una (buena suerte) modelo paramétrico. Y usted puede utilizar la validación cruzada para determinar el óptimo de penalización parámetro (que determina el real grados de libertad del modelo).

Siempre se puede utilizar regresiones no paramétricas como un punto de referencia para la generalización de error, como una forma de comprobar que su regularización modelo lineal predice fuera de los datos, así como un test no paramétrico más suave.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X