En el análisis de regresión, ¿cuál es la diferencia entre "proceso de generación de datos" y "modelo"?
Respuestas
¿Demasiados anuncios?Todos tenemos una buena noción de lo que puede significar "modelo", aunque su definición técnica variará según las disciplinas. Para compararlo con el DGP, empecé por mirar las cinco primeras respuestas (contando dos respuestas con el mismo autor como una) al buscar en Google "proceso de generación de datos".
-
A papel sobre cómo la Fuerza Aérea de EE.UU. crea datos en apoyo logístico.
-
Resumen de un artículo publicado en Environment and Planning A sobre cómo se crean "micropoblaciones sintéticas" mediante "modelos de simulación" por ordenador.
-
A Página web sobre "generación de datos sintéticos"; es decir, simulación "para explorar los efectos de ciertas características de los datos sobre... los modelos".
-
Resumen de una ponencia en la minería de datos, afirmando que "los datos de las bases de datos son el resultado de un proceso subyacente de generación de datos (pgd)".
-
A capítulo de libro que caracteriza los datos de interés como "derivados de alguna transformación $W_t$ de un proceso [estocástico] subyacente $V_t$ ... algunos o todos [de los cuales] pueden no ser observados..."
Estos enlaces muestran tres usos ligeramente diferentes pero estrechamente relacionados del término "proceso de generación de datos". El más común es en un contexto de simulación estadística. Los otros se refieren a los medios reales por los que se crean los datos en una situación en curso (logística) y a un modelo de probabilidad para un procedimiento de creación de datos en curso, destinados a no ser analizados directamente. En el último caso, el texto está diferenciando un proceso estocástico no observable, que sin embargo es modelado matemáticamente, de la cifras reales que se analizarán.
Esto sugiere que son defendibles dos respuestas ligeramente diferentes:
-
En el contexto de la simulación o la creación de datos "sintéticos" para el análisis, el "proceso de generación de datos" es una forma de fabricar datos para su posterior estudio, normalmente mediante un generador de números pseudoaleatorios de un ordenador. El análisis adoptará implícitamente algún modelo que describa las propiedades matemáticas de este DGP.
-
En el contexto del análisis estadístico, es posible que queramos distinguir un fenómeno del mundo real (el DGP) de las observaciones que se analizarán. Tenemos modelos tanto para el fenómeno como para las observaciones, así como un modelo de la conexión entre ambos.
En regresión, pues, el DGP normalmente describiría cómo un conjunto de datos $(\mathbf{X}, Y)_i$ = $(X_{1i}, X_{2i}, \dots, X_{pi}, Y_{i})$ , $i=1, 2, \ldots, n$ se supone que se produce. Por ejemplo El $X_{ji}$ pueden ser fijados por el experimentador o pueden ser observados de alguna manera y entonces se presume que causa o estar relacionado con los valores del $Y_i$ . En modelo describiría las posibles formas de relacionar matemáticamente estos datos; Por ejemplo podríamos decir que cada $Y_{i}$ es una variable aleatoria con expectativa $\mathbf{X} \mathbf{\beta}$ y varianza $\sigma^2$ para parámetros desconocidos $\beta$ y $\sigma$ .
La respuesta de Whuber es excelente, pero merece la pena hacer hincapié en el hecho de que un modelo estadístico no tiene por qué parecerse al modelo generador de datos en todos los aspectos para ser un modelo apropiado para la exploración inferencial de datos. Liu y Meng explican este punto con gran claridad en su reciente artículo arXived ( http://arxiv.org/abs/1510.08539 ):
Idea errónea 1. Un modelo de probabilidad debe describir la generación de los datos.
Una descripción más adecuada del trabajo del modelo (en inferencia) es "Tal o cual patrón probabilístico produce datos que se parecen a los nuestros en aspectos importantes". Para crear réplicas (es decir, controles) de la Mona para crear réplicas (es decir, controles) de la Mona Lisa, no es necesario revivir a da Vinci. una cámara y una impresora. Por supuesto, el conocimiento de da Vinci mejorará la calidad de nuestras réplicas, al igual que el conocimiento como el conocimiento científico del verdadero proceso de generación de datos nos ayuda a a diseñar controles más significativos. Pero a efectos de cuantificación Pero a efectos de cuantificación de la incertidumbre, el trabajo de nuestro modelo consiste en especificar un conjunto de controles que se asemejan a (D, $\theta$ ). En ninguna parte queda más claro este punto que en experimentos informáticos en los que se utiliza un patrón probabilístico para describir datos que siguen un patrón conocido (pero muy patrón determinista (Kennedy y O'Hagan, 2001; Conti et al. et al., 2009). Necesitamos un modelo descriptivo, no necesariamente un modelo generativo. Véanse Lehmann (1990), Breiman (2001) y Hansen y Yu (2001) para más información sobre este punto.
La DGP es el verdadero modelo. El modelo es lo que hemos intentado, utilizando nuestras mejores habilidades, para representar el verdadero estado de la naturaleza. El DGP está influido por el "ruido". El ruido puede ser de muchos tipos:
- Intervenciones puntuales
- Cambios de nivel
- Tendencias
- Cambios en la estacionalidad
- Cambios en los parámetros del modelo
- Cambios en la desviación
Si no se controlan estos 6 elementos, se reduce la capacidad de identificar la verdadera DGP.
DGP es la realidad virtual y una receta única de simulación. Un modelo es una colección de DGP o posibles formas en que se podrían haber generado los datos.
Lea la primera página de este minicurso de Russell Davidson:
http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf