19 votos

¿Por qué no es más popular la estadística bayesiana para el control estadístico de procesos?

Lo que yo entiendo del debate bayesiano vs frecuentista es que la estadística frecuentista:

  • es (o pretende ser) objetivo
  • o al menos imparcial
  • por lo que diferentes investigadores, utilizando diferentes supuestos, pueden obtener resultados cuantitativamente comparables

mientras que la estadística bayesiana

  • afirma hacer "mejores" predicciones (es decir, menores pérdidas esperadas), porque puede utilizar conocimientos previos (entre otras razones)
  • necesita menos elecciones "ad hoc", sustituyéndolas por elecciones previas/modelo que (al menos en principio) tengan una interpretación en el mundo real.

Teniendo esto en cuenta, habría esperado que la estadística bayesiana fuera muy popular en el SPC: si yo fuera el propietario de una fábrica intentando controlar la calidad de mi proceso, me preocuparía principalmente por la pérdida esperada; si pudiera reducirla, porque tengo más/mejores conocimientos previos que mis competidores, aún mejor.

Pero prácticamente todo lo que he leído sobre SPC parece ser firmemente frecuentista (es decir, sin distribuciones a priori, estimaciones puntuales de todos los parámetros, muchas opciones ad hoc sobre el tamaño de la muestra, valores p, etc.).

¿Por qué? Entiendo por qué las estadísticas frecuentistas eran la mejor opción en los años sesenta, cuando el SPC se realizaba con lápiz y papel. Pero, ¿por qué nadie ha probado otros métodos desde entonces?

18voto

trish Puntos 31

ADVERTENCIA Escribí esta respuesta hace mucho tiempo sin tener mucha idea de lo que estaba hablando. No puedo borrarla porque ha sido aceptada, pero no puedo respaldar la mayor parte del contenido.


Esta es una respuesta muy larga y espero que sea útil de alguna manera. SPC no es mi área, pero creo que estos comentarios son lo suficientemente general que se aplican aquí.

Yo diría que la ventaja más citada la capacidad de incorporar creencias previas -- es una ventaja débil campos aplicados/empíricos. Esto se debe a que es necesario cuantifique tu anterior. Incluso si puedo decir "bueno, el nivel z es definitivamente inverosímil", no puedo por nada del mundo decirte lo que debería ocurrir por debajo de z. A menos que los autores empiecen a publicar sus datos en bruto en masa, mis mejores conjeturas para las priorizaciones son momentos condicionales tomados de trabajos anteriores que pueden o no haber sido ajustados en condiciones similares a las que te enfrentas.

Básicamente, las técnicas bayesianas (al menos a nivel conceptual) son excelentes para cuando se tiene un hipótesis/idea/modelo sólido y quieres llevarlo a datos, luego verás lo equivocado o no que resultas estar. Pero a menudo no se busca ver si se está en lo cierto sobre un modelo concreto para el proceso empresarial; lo más probable es que se tenga no modelo, y están deseando ver qué va a hacer su proceso. No se trata de sacar conclusiones, sino de que los datos saquen conclusiones. Si tienes suficientes datos, eso es lo que ocurrirá de todos modos, pero en ese caso ¿para qué molestarse con la predicción? Quizá sea demasiado escéptico y reacio al riesgo, pero nunca he oído hablar de un empresario optimista que también tuviera éxito. No hay forma de cuantificar tu incertidumbre sobre tus propias creencias, y preferirías no correr el riesgo de ser exceso de confianza en lo incorrecto. Entonces fijas un prior poco informativo y la ventaja desaparece.

Esto es interesante en el caso del SPC porque a diferencia de, por ejemplo, el marketing digital, sus procesos empresariales no son siempre en un impredecible estado de cambio. Mi impresión es que los procesos empresariales tienden a cambiar de forma deliberada e incremental. Es decir, se dispone de mucho tiempo para construir buenas y seguras predicciones. Pero hay que recordar que las predicciones tienen que ver con la propagación de la incertidumbre. Dejando a un lado la subjetividad, el bayesianismo tiene la ventaja de que objetivamente propaga incertidumbre a través de procesos de generación de datos profundamente anidados. Para mí, eso es realmente para qué sirve la estadística bayesiana. Y si buscas la fiabilidad de tu proceso más allá del límite de "significación" de 1 entre 20, parece que querrías tener en cuenta toda la incertidumbre posible.

¿Dónde están los modelos bayesianos? En primer lugar, están difícil de aplicar . Por decirlo sin rodeos, puedo enseñar MCO a un ingeniero mecánico en 15 minutos y tenerle haciendo regresiones y pruebas t en Matlab en otros 5. Para utilizar Bayes, primero tengo que decidir qué tipo de modelo estoy ajustando, y luego ver si hay una biblioteca preparada para ello en un lenguaje que alguien de mi empresa conozca. Si no, tengo que utilizar BUGS o Stan. Y luego tengo que ejecutar simulaciones para obtener incluso una respuesta básica, y eso lleva unos 15 minutos en una máquina i7 de 8 núcleos. Demasiado para la creación rápida de prototipos. Y en segundo lugar, para cuando obtienes una respuesta, has pasado dos horas codificando y esperando, sólo para obtener el mismo resultado que podrías haber obtenido con efectos aleatorios frecuentistas con errores estándar agrupados. Puede que todo esto sea presuntuoso y equivocado y que no entienda nada de SPC. Pero lo veo constantemente en el mundo académico y en las ciencias sociales con ánimo de lucro, y me sorprendería que las cosas fueran diferentes en otros campos.

Comparo el Bayesianismo con una muy cuchillo de cocinero de alta calidad, una olla y una sartén para saltear el frecuentismo es como una cocina llena de Herramientas de As-Seen-On-TV como cortadores de plátano y ollas para pasta con agujeros en la tapa para escurrir fácilmente . Si eres un cocinero experto con mucha experiencia en la cocina -de hecho, en tu propia cocina de conocimiento sustantivo, que está limpia y organizada y sabes dónde está cada cosa- puedes hacer cosas increíbles con tu pequeña selección de herramientas elegantes y de alta calidad. O puedes usar un montón de pequeñas herramientas ad-hoc*, que no requieren ninguna habilidad para usarlas, para hacer una comida sencilla, que no está nada mal, y que tiene un par de sabores básicos que dan en el clavo. Acabas de llegar a casa de las minas de datos y estás hambriento de resultados; ¿qué cocinero eres?

*Bayes es igual de ad-hoc, pero con menos transparencia tan. ¿Cuánto vino lleva su coq au vin? Ni idea, lo calculas a ojo porque eres un profesional. O no sabes distinguir entre un Pinot Grigio y un Pinot Noir, pero la primera receta de Epicurious dice que hay que usar 2 tazas del tinto, así que eso es lo que vas a hacer. ¿Cuál es más "ad-hoc"?

5voto

johv Puntos 191

En mi humilde opinión, la estadística bayesiana adolece de algunos inconvenientes que chocan con su uso generalizado (en SPC, pero también en otros sectores de la investigación):

  1. Es más difícil obtener estimaciones que su homólogo frecuentista (la mayor parte de las clases de estadística adoptan el enfoque frecuentista. Por cierto, sería interesante investigar si ésta es la causa o el efecto de la escasa popularidad de la estadística bayesiana).

  2. Muy a menudo, la estadística bayesiana impone elecciones sobre diferentes formas de abordar el mismo problema (por ejemplo, ¿cuál es la mejor prior?), no sólo haga clic y consulte (de todos modos, este enfoque tampoco debería fomentarse en el marco frecuentista).

  3. La estadística bayesiana tiene algunos temas que son difíciles de manejar por estadísticos poco experimentados (por ejemplo, antecedentes impropios );

  4. Requiere análisis de sensibilidad (normalmente evitados en el marco frecuentista), y se hacen excepciones para algunos temas, como el análisis de datos ausentes.

  5. Sólo dispone de un programa de cálculo (loablemente, de descarga gratuita).

  6. En lleva más tiempo ser un investigador autónomo con herramientas bayesianas que con frecuentistas.

4voto

user111548 Puntos 141

Una de las razones es que la estadística bayesiana estuvo congelada fuera de la corriente dominante hasta alrededor de 1990. Cuando yo estudiaba estadística en los años 70, era casi una herejía (no en todas partes, pero sí en la mayoría de los programas de posgrado). No ayudaba el hecho de que la mayoría de los problemas interesantes fueran insolubles. Como resultado, casi todos los que enseñan estadística hoy en día (y revisan artículos para revistas, y diseñan planes de estudio) están formados como frecuentistas. Las cosas empezaron a cambiar en torno a 1990 con la popularización de los métodos Markov Chain Monte Carlo (MCMC), que poco a poco se están abriendo camino en paquetes como SAS y Stata. Personalmente, creo que serán mucho más comunes dentro de 10 años, aunque en aplicaciones especializadas (SPC) puede que no tengan mucha ventaja.

Un grupo que está trabajando para que el análisis bayesiano esté más ampliamente disponible es el grupo que desarrolla el paquete STAN (mc-stan.org).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X