73 votos

¿Qué es un modelo "saturado"?

¿A qué nos referimos cuando decimos que tenemos un modelo saturado?

0 votos

¿Cuáles son las relaciones entre la división de modelos saturados/no saturados y la división de modelos paramétricos/no paramétricos? Dado que los modelos saturados equivalen a una descripción trivial de los datos, ¿están (en espíritu, al menos) más cerca de los modelos no paramétricos que de los paramétricos? Dado que los modelos no saturados equivalen a tomar alguna forma de "restricción paramétrica", ¿están (en espíritu, al menos) más cerca de los modelos paramétricos que de los no paramétricos?

48voto

Danny Whitt Puntos 111

Un modelo saturado es aquel en el que hay tantos parámetros estimados como puntos de datos. Por definición, esto conducirá a un ajuste perfecto, pero será poco útil estadísticamente, ya que no quedan datos para estimar la varianza.

Por ejemplo, si tiene 6 puntos de datos y ajusta un polinomio de 5º orden a los datos, tendrá un modelo saturado (un parámetro para cada una de las 5 potencias de su variable independiente más uno para el término constante).

21 votos

He visto ejemplos en los que un modelo tiene diez puntos de datos y nueve parámetros. Al señalar que el modelo tiene demasiados parámetros, me dijeron que el R^2 era de 0,999, ¡así que el modelo debe ser correcto!

6 votos

Como se puede leer en mi post y en el de Dave, los modelos saturados no conducen por definición a un ajuste perfecto. pero si se utiliza el polinominal n-1 como modelo sí lo harán. véase el artículo seminal de Sue Doe Nihm sobre este tema psych.fullerton.edu/mbirnbaum/papers/Nihm_18_1976.pdf

0 votos

Perdón si esto es OT: ¿cómo se llama el caso en el que tenemos una colección ordenada de puntos de datos y hay un punto de datos más allá del cual todos los casos son éxitos o todos los casos son fracasos?

29voto

Bernard Puntos 10700

Un modelo saturado es un modelo que está sobreparametrizado hasta el punto de que básicamente sólo interpola los datos. En algunos ámbitos, como la compresión y reconstrucción de imágenes, esto no es necesariamente malo, pero si se trata de construir un modelo predictivo es muy problemático.

En resumen, los modelos saturados conducen a predictores de muy alta varianza que son empujados por el ruido más que por los datos reales.

Como experimento mental, imagina que tienes un modelo saturado y que hay ruido en los datos, entonces imagina que ajustas el modelo unos cientos de veces, cada vez con una realización diferente del ruido, y luego predices un nuevo punto. Es probable que obtengas resultados radicalmente diferentes cada vez, tanto para tu ajuste como para tu predicción (y los modelos polinómicos son especialmente atroces en este sentido); en otras palabras, la varianza del ajuste y del predictor es extremadamente alta.

Por el contrario, un modelo no saturado (si se construye de forma razonable) proporcionará ajustes más consistentes entre sí, incluso bajo diferentes realizaciones de ruido, y la varianza del predictor también se reducirá.

1 votos

Entonces, ¿estás sobreajustando?

21voto

aphoria Puntos 304

Como todos han dicho antes, significa que tienes tantos parámetros como puntos de datos. Por lo tanto, no hay pruebas de bondad de ajuste. Pero esto no significa que "por definición", el modelo pueda ajustarse perfectamente a cualquier punto de datos. Puedo decir por experiencia personal que he trabajado con algunos modelos saturados que no podían predecir puntos de datos específicos. Es bastante raro, pero posible.

Otra cuestión importante es que saturado no significa inútil. Por ejemplo, en los modelos matemáticos de la cognición humana, los parámetros del modelo se asocian a procesos cognitivos específicos que tienen un trasfondo teórico. Si un modelo está saturado, se puede poner a prueba su idoneidad realizando experimentos focalizados con manipulaciones que deberían afectar sólo a parámetros específicos. Si las predicciones teóricas coinciden con las diferencias observadas (o la falta de ellas) en las estimaciones de los parámetros, entonces se puede decir que el modelo es válido.

Un ejemplo: Imagine, por ejemplo, un modelo que tiene dos conjuntos de parámetros, uno para el procesamiento cognitivo y otro para las respuestas motoras. Imagine ahora que tiene un experimento con dos condiciones, una en la que la capacidad de respuesta de los participantes está deteriorada (sólo pueden utilizar una mano en lugar de las dos), y en la otra condición no hay ningún deterioro. Si el modelo es válido, las diferencias en las estimaciones de los parámetros para ambas condiciones sólo deberían producirse para los parámetros de respuesta motora.

Además, hay que tener en cuenta que, aunque un modelo no esté saturado, puede ser no identificable, lo que significa que diferentes combinaciones de valores de los parámetros producen el mismo resultado, lo que compromete cualquier ajuste del modelo.

Si quieres encontrar más información sobre estos temas en general, puedes echar un vistazo a estos documentos:

Bamber, D., y van Santen, J. P. H. (1985). ¿Cuántos parámetros puede tener un modelo y seguir siendo comprobable? Journal of Mathematical Psychology, 29, 443-473.

Bamber, D., y van Santen, J. P. H. (2000). How to Assess a Model's Testability and Identifiability. Journal of Mathematical Psychology, 44, 20-40.

Saludos

17voto

Anthony Cramp Puntos 126

Un modelo está saturado si y sólo si tiene tantos parámetros como puntos de datos (observaciones). O dicho de otro modo, en los modelos no saturados los grados de libertad son mayores que cero.

Esto significa básicamente que este modelo es inútil, porque no describe los datos de forma más parsimoniosa que los datos brutos (y describir los datos de forma parsimoniosa es, en general, la idea de utilizar un modelo). Además, los modelos saturados pueden (pero no necesariamente) proporcionar un ajuste perfecto (inútil) porque sólo interpolan o iteran los datos.

Tomemos por ejemplo la media como modelo para algunos datos. Si sólo tiene un punto de datos (por ejemplo, 5), utilizar la media (es decir, 5; tenga en cuenta que la media es un modelo saturado para un solo punto de datos) no ayuda en absoluto. Sin embargo, si ya tiene dos puntos de datos (por ejemplo, 5 y 7), utilizar la media (es decir, 6) como modelo le proporciona una descripción más parsimoniosa que los datos originales.

10 votos

Este punto sobre la saturación que no implica un ajuste perfecto es lo más interesante de este hilo. Un ejemplo natural de esta situación sería regresión monotónica . Supongamos, por ejemplo, que sabe que sus valores deben aumentar con el tiempo y realiza una regresión polinómica, obligando a que los polinomios sean crecientes. Considere los datos que tienen algún error, por lo que en algunos momentos disminuyen un poco. Entonces no importa cuántos parámetros utilices (incluso cuando es más que el número de valores de los datos), nunca ajustará estos datos a la perfección.

13voto

Phil Puntos 26

En regresión, un uso común del término "modelo saturado" es el siguiente. Un modelo saturado tiene tantas variables independientes como variables únicas niveles (combinaciones) de las covariables. Por supuesto, esto sólo es posible con covariables categóricas. Así que si tiene dos variables ficticias X1 y X2, una regresión está saturada si las variables independientes que incluye son X1, X2 y X1*X2.

Esto es ventajoso porque la función de expectativa condicional de Y dados X1 y X2 es necesariamente lineal en los parámetros cuando el modelo está saturado (es lineal en X1, X2, X1*X2). Es importante destacar que este modelo no suele tener "tantos parámetros estimados como puntos de datos", ni suele tener un "ajuste perfecto".

Aquí hay una fuente para esto, hay muchas otras: "¿Cuándo podemos esperar que el CEF sea lineal? En dos casos. Uno es si los datos (el resultado y las covariables) son normales multivariantes. El otro es si la regresión lineal es saturado . Un modelo de regresión saturado es aquel en el que hay un parámetro para cada combinación única de las covariables. En este caso, la regresión se ajusta perfectamente al MCE porque éste es una función lineal de las categorías ficticias". Notas de la conferencia del profesor Blackwell, página 2 .

1 votos

La caracterización del primer párrafo no es más que un caso especial de la cita del tercero (que es una respuesta excelente por derecho propio).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X