Para que quede claro, dudo que esté utilizando el término "validación cruzada" correctamente aquí; lo que estoy sugiriendo también parece similar a "boot-strapping" y "hyperparameter tuning". La terminología no es mi fuerte.
Digamos que tenemos un d ata set con $20$ observaciones, $D_1, \dots, D_{20}$ . No sabemos qué prioridad utilizar para el conjunto de datos, así que decidimos utilizar la máxima prioridad de entropía dada la media y la varianza de la población, es decir, una prioridad normal. (Por supuesto, esto supone que la distribución de la población tiene un segundo momento finito. No estoy convencido de que este supuesto sea inocuo, pero es común).
Pero, por supuesto, no conocemos la media y la varianza de la población, así que las estimamos. No podemos utilizar todos los datos para estimarlos, porque entonces no quedaría ningún dato para hacer nuestra inferencia. Así que digamos que utilizamos las observaciones $D_1, \dots, D_{15}$ para obtener una estimación $\hat{\mu}$ para la media de la población $\mu$ y una estimación $\hat{\sigma}^2$ para la varianza de la población $\sigma^2$ . Entonces elegimos $\mathscr{N}(\hat{\mu}, \hat{\sigma}^2)$ como nuestra prioridad y luego utilizar el resto de $5$ observaciones $D_{16}, \dots, D_{20}$ para hacer inferencia con nuestro previo.
A nadie le gustaría esta situación porque ya no estamos utilizando todos nuestros datos para la inferencia. Así que:
Pregunta: En esta situación, ¿tendría sentido:
Calcular las probabilidades de éxito $\mathscr{N}(\hat{\mu}_1, \hat{\sigma}^2_1)$ , $\mathscr{N}(\hat{\mu}_2, \hat{\sigma}_2^2)$ , $\mathscr{N}(\hat{\mu}_3, \hat{\sigma}_3^2)$ , $\mathscr{N}(\hat{\mu}_4, \hat{\sigma}_4^2)$ El primero utilizando exactamente el mismo procedimiento anterior, el segundo utilizando un procedimiento análogo con $D_{11}, \dots, D_{15}$ como el "conjunto de retención", el tercero utilizando un procedimiento análogo con $D_{6}, \dots, D_{10}$ como el "conjunto de retención", y el cuarto utilizando un procedimiento análogo con $D_1, \dots, D_5$ como el "conjunto de retención",
Elegir como nuestra prioridad (a) la combinación convexa de estas cuatro prioridades anteriores, que sería un modelo de mezcla gaussiana, supongo, o (b) tomar como nuestra prioridad $\mathscr{N}(\tilde{\mu}, \tilde{\sigma}^2)$ , donde $$\tilde{\mu} := \frac{1}{4}(\hat{\mu}_1 + \hat{\mu}_2 + \hat{\mu}_3 + \hat{\mu}_4 ) \,, \quad \tilde{\sigma}^2 := \frac{1}{4}(\hat{\sigma}^2_1 + \hat{\sigma}_2^2 + \hat{\sigma}_3^2 + \hat{\sigma}_4^2) \,?$$
El ejemplo anterior se generaliza fácilmente, por supuesto (por ejemplo, ni siquiera he especificado un método concreto para obtener nuestras estimaciones $\hat{\mu}$ y $\hat{\sigma}^2$ ), pero he pensado en utilizar este ejemplo concreto porque no creo que pueda explicarme claramente con toda la generalidad.
(En realidad, incluso dudo que el ejemplo concreto anterior se explique con claridad).
Preguntas adicionales: ¿Tiene ya un nombre establecido algo similar al procedimiento anterior? ¿Y existe alguna literatura que demuestre su falta de propiedades de optimalidad o que lo analice teóricamente?
Creo que esta pregunta es diferente de esta pregunta relacionada porque esa pregunta tiene una fuente de datos tanto interna como externa. En este ejemplo, nuestra estimación e inferencia de parámetros están "compitiendo" por los mismos datos, por lo que utilizamos la "validación cruzada" o el submuestreo repetido ("bootstrapping") para lograr el "ajuste de hiperparámetros" necesario para la prioridad.
También es diferente de la método sugerido aquí que Andrew Gelman argumentó (probablemente de forma convincente, no entiendo el argumento para ser honesto) no funciona bien. Pero ese método sugiere el uso de un enfoque de "estimación M" con validación cruzada para obtener la priorización, es decir, para seleccionar la priorización de "mejor rendimiento" de $\mathscr{N}(\hat{\mu}_1, \hat{\sigma}^2_1)$ , $\mathscr{N}(\hat{\mu}_2, \hat{\sigma}_2^2)$ , $\mathscr{N}(\hat{\mu}_3, \hat{\sigma}_3^2)$ , $\mathscr{N}(\hat{\mu}_4, \hat{\sigma}_4^2)$ mientras que yo sugiero que se utilicen algunos combinación de ellos. Esto tiene más sentido para mí que el otro método, tanto para (a) evitar el "sobreajuste" como para (b) utilizar más datos para informar la elección de la prioridad.
3 votos
Me parece extraño el concepto básico de utilizar los datos actuales para establecer un previo. Siempre he pensado que los previos deben proceder de algún conocimiento previo (es decir, que los decides antes de ver tus datos), como de la literatura o de los "prejuicios". ¿Qué esperas ganar con tu procedimiento en comparación con el establecimiento de una prioridad plana y el uso de todos tus datos para la inferencia (en caso de que no tengas ningún prejuicio o idea de cómo establecer las prioridades)? Además, en su procedimiento, ¿no está utilizando sus datos "dos veces" (lo que llevaría a una subestimación de la incertidumbre final)?
0 votos
@fabiob Si usas un previo plano, no puedes hacer intervalos creíbles. Además, esto sí utiliza todos los datos para la inferencia; ese es literalmente todo el punto. Siempre hay una incertidumbre no cuantificable en la elección de la prioridad, por lo que también es un punto discutible.
1 votos
Bien, entonces cambia la plana por la gaussiana ancha. No puedo imaginar una cantidad para la que no tengas ni idea, ni siquiera del orden de magnitud. y mi punto no era que no uses todos los datos para la inferencia, sino que los usas dos veces.
0 votos
@fabiob ¿Por qué sería apropiada una gaussiana amplia si su muestra sugiere que la varianza de la población es pequeña? ¿Cómo se elige una gaussiana que sea lo suficientemente "amplia"? De todos modos, los datos se utilizan dos veces todo el tiempo para el bootstrapping y la validación cruzada y otros métodos. El sentido de la pregunta es que el doble uso propuesto es esencialmente el mismo que en esos métodos. La forma en que se utiliza dos veces está estructurada específicamente para mitigar un posible sobreajuste. La única razón para evitar el doble uso de los datos es evitar el sobreajuste, así que esa preocupación me parece discutible.