32 votos

¿Por qué debo ser bayesiano cuando mi conjunto de datos es grande?

De " ¿Por qué debo ser bayesiano si mi modelo es erróneo? ", una de las principales ventajas de la inferencia bayesiana es poder inyectar en el modelo un conocimiento exógeno del dominio, en forma de una prioridad. Esto es especialmente útil cuando no se tienen suficientes datos observados para hacer buenas predicciones.

Sin embargo, la influencia de la prioridad disminuye (¿a cero?) a medida que el conjunto de datos aumenta. Por lo tanto, si se dispone de suficientes datos, la prioridad tiene muy poco valor.

¿Cuál es la ventaja de utilizar el análisis bayesiano en este caso?

¿Tal vez que todavía obtenemos una distribución posterior sobre los valores de los parámetros? (Pero si los datos son lo suficientemente grandes, ¿la distribución posterior no se reduciría a la MLE?)

41voto

Nixit Patel Puntos 34
  1. Ser bayesiano no es sólo una cuestión de información alimentada a priori. Pero incluso así: Cuando la prioridad es cero, ninguna cantidad de datos la cambiará.

  2. Disponer de una distribución posterior bayesiana completa de la que extraer datos abre montones y montones de formas de hacer inferencia.

  3. Es fácil explicar un intervalo de confianza a cualquier audiencia, mientras que se sabe que la mayoría de las audiencias tienen una comprensión muy vaga de lo que es un intervalo de confianza.

  4. Andrew Gelman dijo en uno de sus videos de youtube, que $p$ es siempre ligeramente inferior a $0.05$ porque si no fuera más pequeña no leeríamos sobre ella y si fuera mucho más pequeña examinarían los subgrupos. Aunque esto no es una verdad absoluta, en efecto, cuando se tienen datos grandes se tiene la tentación de investigar subgrupos definidos ("¿sigue siendo cierto cuando sólo investigamos a las mujeres solteras caucásicas menores de 30 años?") y eso tiende a reducir bastante incluso los datos grandes.

  5. $p$ -Los valores tienden a ser inútiles con datos grandes, ya que en la vida real ninguna hipótesis nula se cumple en conjuntos de datos grandes. Es parte de la tradición sobre $p$ valores que mantenemos el error alfa aceptable en $.05$ incluso en conjuntos de datos enormes en los que no es necesario un margen de error tan grande. El análisis baysiano no se limita a las hipótesis puntuales y puede encontrar que los datos están en una región de equivalencia práctica a una hipótesis nula, un factor baysiano puede hacer crecer su creencia en algún tipo de hipótesis nula equivalente donde un $p$ valor sólo puede acumular pruebas en su contra. ¿Podría encontrar formas de emular eso mediante intervalos de confianza y otros métodos frecuentistas? Probablemente sí, pero Bayes viene con ese enfoque como estándar.

  6. "Pero para datos suficientemente grandes, ¿no se colapsaría la posterior a la MLE?" - ¿Qué pasaría si una posterior fuera bimodal o si dos predictores estuvieran correlacionados por lo que se podrían tener diferentes combinaciones de, por ejemplo. $\beta_8$ y $\beta_9$ - un posterior puede representar estas diferentes combinaciones, un estimador puntual MLE no.

8voto

Asken Puntos 253

Me gustaría hacerme eco de algunos de los puntos de la otra respuesta con un énfasis ligeramente diferente.

Para mí, la cuestión más importante es que el punto de vista bayesiano de la incertidumbre/probabilidad/aleatoriedad es el que responde directamente a las preguntas que probablemente nos interesan, mientras que el punto de vista frecuentista de la incertidumbre responde directamente a otras preguntas que a menudo no vienen al caso. Las inferencias bayesianas tratan de decirnos lo que nosotros (o un algoritmo, máquina, etc.) deberíamos creer dados los datos que hemos visto, o en otras palabras "¿qué puedo aprender sobre el mundo a partir de estos datos?" Las inferencias frecuentistas tratan de decirnos lo diferentes que serían nuestros resultados si los datos que realmente vimos fueran "re-generados" o "muestreados repetidamente" un número infinito de veces. Personalmente, a veces encuentro interesantes las preguntas frecuentistas, pero no se me ocurre un escenario en el que las preguntas bayesianas no sean las que más importan (ya que al final quiero tomar una decisión sobre qué creer o hacer ahora que he visto nuevos datos). Vale la pena señalar que a menudo la gente (incluidos los estadísticos) interpreta incorrectamente los análisis frecuenciales como si respondieran a preguntas bayesianas, lo que probablemente traiciona sus verdaderos intereses. Y mientras la gente se preocupa por la subjetividad inherente a los métodos bayesianos, yo pienso en la frase de Tukey: "Mucho mejor una respuesta aproximada a la pregunta correcta, que a menudo es vaga, que una respuesta exacta a la pregunta incorrecta, que siempre se puede precisar". Por si sirve de algo, los métodos frecuentistas también son subjetivos, y podría decirse que de forma menos obvia y conveniente de criticar.

Dejando de lado mi orgullo bayesiano, tienes razón en que las respuestas a las preguntas frecuentistas (especialmente la MLE) a veces coinciden estrechamente (y en raros casos, exactamente) con las respuestas a las preguntas bayesianas.

Sin embargo, los datos grandes son una noción vaga en algunos sentidos que pueden hacer que las respuestas bayesianas y frecuenciales (MLE) sigan siendo diferentes:

  1. La mayoría de los resultados sobre datos grandes son asintóticos a medida que el tamaño de la muestra llega al infinito, lo que significa que no nos dicen cuándo nuestro tamaño de muestra es realmente lo suficientemente grande para que el resultado asintótico sea lo suficientemente preciso (hasta cierto nivel de error conocido). Si te tomas la molestia de hacer tanto el análisis bayesiano como el frecuencial de tus datos y descubres que son numéricamente similares, entonces no importa tanto.
  2. A menudo, con los datos "grandes" (por ejemplo, muchas observaciones) también tenemos un gran número de preguntas o parámetros de interés. Esto es básicamente el punto #4 de Bernhard.
  3. Muchos de los grandes conjuntos de datos no están perfectamente diseñados y se relacionan con nuestros intereses de forma indirecta debido a cuestiones como el error de medición o el sesgo de muestreo. Tratadas con honestidad, estas complicaciones pueden no desaparecer ni siquiera asintóticamente, lo que significa que los modelos que relacionan de forma realista los datos con lo que nos interesa tienen parámetros de sensibilidad no identificables que son los más naturales para tratar con el uso de priores y la maquinaria bayesiana.

Por supuesto, la otra cara de esta pregunta es "¿Por qué debería ser frecuentista si mi conjunto de datos es grande?"

8voto

Loren Pechtel Puntos 2212

Las otras respuestas abordan lo que probablemente sea tu pregunta real. Pero sólo para añadir un punto de vista más concreto: si ya eres bayesiano (para conjuntos de datos pequeños/medios) y consigues un dato grande, ¿por qué no utilizar la metodología con la que estás familiarizado? Es se ser relativamente lenta, pero estás familiarizado con los pasos, por lo que es menos probable que cometas errores y es más probable que detectes los problemas. Y un flujo de trabajo bayesiano incluye cosas como comprobaciones predictivas posteriores, etc., que son útiles para entender tu modelo.

8voto

Dipstick Puntos 4869

Un lugar donde el enfoque bayesiano se encuentra con grandes conjuntos de datos es el aprendizaje profundo bayesiano. Cuando se utiliza el enfoque bayesiano para las redes neuronales, la gente suele emplear priores bastante simplistas (gaussianos, centrados en cero), sobre todo por razones computacionales, pero también porque no hay mucho conocimiento previo (los parámetros de la red neuronal son de caja negra). La razón por la que se utiliza el enfoque bayesiano es porque nos proporciona estimaciones de incertidumbre.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X