7 votos

¿Se puede utilizar la "validación cruzada" para elegir una prioridad?

Para que quede claro, dudo que esté utilizando el término "validación cruzada" correctamente aquí; lo que estoy sugiriendo también parece similar a "boot-strapping" y "hyperparameter tuning". La terminología no es mi fuerte.

Digamos que tenemos un d ata set con $20$ observaciones, $D_1, \dots, D_{20}$ . No sabemos qué prioridad utilizar para el conjunto de datos, así que decidimos utilizar la máxima prioridad de entropía dada la media y la varianza de la población, es decir, una prioridad normal. (Por supuesto, esto supone que la distribución de la población tiene un segundo momento finito. No estoy convencido de que este supuesto sea inocuo, pero es común).

Pero, por supuesto, no conocemos la media y la varianza de la población, así que las estimamos. No podemos utilizar todos los datos para estimarlos, porque entonces no quedaría ningún dato para hacer nuestra inferencia. Así que digamos que utilizamos las observaciones $D_1, \dots, D_{15}$ para obtener una estimación $\hat{\mu}$ para la media de la población $\mu$ y una estimación $\hat{\sigma}^2$ para la varianza de la población $\sigma^2$ . Entonces elegimos $\mathscr{N}(\hat{\mu}, \hat{\sigma}^2)$ como nuestra prioridad y luego utilizar el resto de $5$ observaciones $D_{16}, \dots, D_{20}$ para hacer inferencia con nuestro previo.

A nadie le gustaría esta situación porque ya no estamos utilizando todos nuestros datos para la inferencia. Así que:

Pregunta: En esta situación, ¿tendría sentido:

  • Calcular las probabilidades de éxito $\mathscr{N}(\hat{\mu}_1, \hat{\sigma}^2_1)$ , $\mathscr{N}(\hat{\mu}_2, \hat{\sigma}_2^2)$ , $\mathscr{N}(\hat{\mu}_3, \hat{\sigma}_3^2)$ , $\mathscr{N}(\hat{\mu}_4, \hat{\sigma}_4^2)$ El primero utilizando exactamente el mismo procedimiento anterior, el segundo utilizando un procedimiento análogo con $D_{11}, \dots, D_{15}$ como el "conjunto de retención", el tercero utilizando un procedimiento análogo con $D_{6}, \dots, D_{10}$ como el "conjunto de retención", y el cuarto utilizando un procedimiento análogo con $D_1, \dots, D_5$ como el "conjunto de retención",

  • Elegir como nuestra prioridad (a) la combinación convexa de estas cuatro prioridades anteriores, que sería un modelo de mezcla gaussiana, supongo, o (b) tomar como nuestra prioridad $\mathscr{N}(\tilde{\mu}, \tilde{\sigma}^2)$ , donde $$\tilde{\mu} := \frac{1}{4}(\hat{\mu}_1 + \hat{\mu}_2 + \hat{\mu}_3 + \hat{\mu}_4 ) \,, \quad \tilde{\sigma}^2 := \frac{1}{4}(\hat{\sigma}^2_1 + \hat{\sigma}_2^2 + \hat{\sigma}_3^2 + \hat{\sigma}_4^2) \,?$$

El ejemplo anterior se generaliza fácilmente, por supuesto (por ejemplo, ni siquiera he especificado un método concreto para obtener nuestras estimaciones $\hat{\mu}$ y $\hat{\sigma}^2$ ), pero he pensado en utilizar este ejemplo concreto porque no creo que pueda explicarme claramente con toda la generalidad.

(En realidad, incluso dudo que el ejemplo concreto anterior se explique con claridad).

Preguntas adicionales: ¿Tiene ya un nombre establecido algo similar al procedimiento anterior? ¿Y existe alguna literatura que demuestre su falta de propiedades de optimalidad o que lo analice teóricamente?

Creo que esta pregunta es diferente de esta pregunta relacionada porque esa pregunta tiene una fuente de datos tanto interna como externa. En este ejemplo, nuestra estimación e inferencia de parámetros están "compitiendo" por los mismos datos, por lo que utilizamos la "validación cruzada" o el submuestreo repetido ("bootstrapping") para lograr el "ajuste de hiperparámetros" necesario para la prioridad.

También es diferente de la método sugerido aquí que Andrew Gelman argumentó (probablemente de forma convincente, no entiendo el argumento para ser honesto) no funciona bien. Pero ese método sugiere el uso de un enfoque de "estimación M" con validación cruzada para obtener la priorización, es decir, para seleccionar la priorización de "mejor rendimiento" de $\mathscr{N}(\hat{\mu}_1, \hat{\sigma}^2_1)$ , $\mathscr{N}(\hat{\mu}_2, \hat{\sigma}_2^2)$ , $\mathscr{N}(\hat{\mu}_3, \hat{\sigma}_3^2)$ , $\mathscr{N}(\hat{\mu}_4, \hat{\sigma}_4^2)$ mientras que yo sugiero que se utilicen algunos combinación de ellos. Esto tiene más sentido para mí que el otro método, tanto para (a) evitar el "sobreajuste" como para (b) utilizar más datos para informar la elección de la prioridad.

3 votos

Me parece extraño el concepto básico de utilizar los datos actuales para establecer un previo. Siempre he pensado que los previos deben proceder de algún conocimiento previo (es decir, que los decides antes de ver tus datos), como de la literatura o de los "prejuicios". ¿Qué esperas ganar con tu procedimiento en comparación con el establecimiento de una prioridad plana y el uso de todos tus datos para la inferencia (en caso de que no tengas ningún prejuicio o idea de cómo establecer las prioridades)? Además, en su procedimiento, ¿no está utilizando sus datos "dos veces" (lo que llevaría a una subestimación de la incertidumbre final)?

0 votos

@fabiob Si usas un previo plano, no puedes hacer intervalos creíbles. Además, esto sí utiliza todos los datos para la inferencia; ese es literalmente todo el punto. Siempre hay una incertidumbre no cuantificable en la elección de la prioridad, por lo que también es un punto discutible.

1 votos

Bien, entonces cambia la plana por la gaussiana ancha. No puedo imaginar una cantidad para la que no tengas ni idea, ni siquiera del orden de magnitud. y mi punto no era que no uses todos los datos para la inferencia, sino que los usas dos veces.

11voto

Lev Puntos 2212

Desde antes etimológicamente significa antes de :

antes

adjetivo

que existe o es anterior en tiempo, orden o importancia.

"tiene un compromiso previo esta noche"

sinónimos: anterior, previo, precedente, antecedente, avance, preparatorio, preliminar, inicial.

utilizando el datos para construir el antes no es correcto dentro de una perspectiva bayesiana. Sin embargo, se encuentra en la metodología "empírica de Bayes", iniciada por Robbins (1955) y defendida por Efron que utiliza primero los datos para estimar los parámetros de una prioridad, como su ejemplo de la Normal, y una segunda vez para ejecutar un análisis pseudo-Bayesiano como si la prioridad fuera una verdadera prioridad. Algunas versiones de este enfoque gozan de propiedades de convergencia, por ejemplo en entornos semiparamétricos y no paramétricos.

Sin embargo, la cuestión parece alejarse de esta solución al hacer un uso único de los datos y separarlos en partes de aprendizaje e inferencia. Esto está relacionado con la construcción de factores de Bayes intrínsecos en la década de 1990, por Jim Berger y sus coautores, donde una fracción de los datos se utiliza para convertir una previa plana (o de otro modo impropia) en una posterior adecuada, y utilizar la fracción restante para calcular un factor de Bayes (y ejecutar una decisión de prueba). Para evitar que la elección de la partición afecte al resultado final, se consideran todas las permutaciones posibles y se calcula una forma de media (entre aritmética, geométrica, armónica, mediana). Una alternativa mucho más elegante es el factor de Bayes fraccionario de O'Hagan (1995), en el que la probabilidad $L(\theta)$ se sustituye por una potencia fraccionaria $L^\alpha(\theta)$ que se utiliza para crear una posterior y esta posterior se utiliza como previa para el resto de la probabilidad $L^{1-\alpha}(\theta)$ . La dificultad de estos enfoques estriba en determinar la cantidad "correcta" de partición, por ejemplo, el valor de $\alpha$ .

4voto

kjetil b halvorsen Puntos 7012

En este documento Andrew Gelman utilizó la validación cruzada en un corpus de conjuntos de datos para proponer una prioridad débilmente informativa, destinada a un uso rutinario. Parece un enfoque sensato.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X