Acabo de terminar un módulo en el que hemos tratado los diferentes enfoques de los problemas estadísticos, principalmente el bayesiano y el frecuentista. La profesora también ha anunciado que es frecuentista. Hemos tratado algunas paradojas y, en general, las peculiaridades de cada enfoque (frecuencias de largo plazo, especificación a priori, etc.). Esto me ha hecho pensar: ¿hasta qué punto tengo que considerar esto? Si quiero ser estadístico, ¿tengo que alinearme con una filosofía? Antes de abordar un problema, ¿tengo que mencionar específicamente qué escuela de pensamiento voy a aplicar? Y, sobre todo, ¿tengo que tener cuidado de no mezclar los enfoques frecuentista y bayesiano y provocar contradicciones/paradojas?
Respuestas
¿Demasiados anuncios?Creo que la principal conclusión es la siguiente: el mero hecho de que existan estas diferentes filosofías de la estadística y el desacuerdo sobre ellas implica que traducir los "números duros" que se obtienen al aplicar las fórmulas estadísticas en decisiones del "mundo real" es un problema no trivial y está plagado de peligros interpretativos.
Con frecuencia, las personas utilizan las estadísticas para influir en su toma de decisiones en el mundo real. Por ejemplo, los científicos no están llevando a cabo ensayos aleatorios sobre vacunas COVID en este momento por diversión: es porque quieren tomar decisiones en el mundo real sobre si administrar o no un candidato a vacuna concreto a la población. Aunque puede ser un reto logístico reunir a 1.000 sujetos de prueba y observarlos durante el transcurso de la vacuna, las matemáticas que hay detrás de todo esto están bien definidas, tanto si se es frecuentista como bayesiano: se toman los datos recogidos, se introducen en las fórmulas y los números salen por el otro extremo.
Sin embargo, esas cifras pueden ser a veces difíciles de interpretar: Su relación con el mundo real depende de muchas cosas no matemáticas, y aquí es donde entra en juego la filosofía. La interpretación del mundo real depende de cómo hayamos reunido a esos sujetos de prueba. Depende de la probabilidad de que esta vacuna sea eficaz a priori (¿hemos sacado una molécula de un sombrero o hemos empezado con un método de producción de vacunas que ya se conoce?) Depende de (quizás de forma poco intuitiva) cuántas otras vacunas candidatas estemos probando. Depende de, etc., etc., etc.
Los bayesianos han intentado introducir marcos matemáticos adicionales para ayudar a aliviar algunos de estos problemas de interpretación. Creo que el hecho de que los métodos frecuentistas sigan proliferando muestra que estos marcos adicionales no han tenido mucho éxito a la hora de ayudar a la gente a traducir sus cálculos estadísticos en acciones del mundo real (aunque, sin duda, las técnicas bayesianas han dado lugar a muchos otros avances en el campo, no directamente relacionados con este problema específico).
Para responder a tus preguntas concretas: no es necesario que te alinees con una filosofía. Puede ser útil ser específico sobre su enfoque, pero generalmente será totalmente obvio que está haciendo un análisis bayesiano en el momento en que empiece a hablar de priores. Por último, sin embargo, debe considerar todo esto muy seriamente, porque como estadístico será su deber ético asegurarse de que los números que proporciona a la gente se utilicen de forma responsable, porque interpretar correctamente esos números es un problema difícil. Que interpretes tus números a través de la lente de la filosofía frecuentista o bayesiana no es un gran problema, pero la interpretación de tus números requiere estar familiarizado con la filosofía relevante.
Una nota preliminar sobre mi nomenclatura: Como cuestión preliminar, señalo que nunca me ha gustado el término "escuela frecuentista" para la filosofía y el conjunto de métodos que designa, por lo que en su lugar me refiero a esta escuela de pensamiento como "clásica". Tanto los bayesianos como los estadísticos clásicos están totalmente de acuerdo en los teoremas pertinentes relativos a las leyes de los grandes números, por lo que ambos grupos coinciden en que la interpretación "frecuentista" de la probabilidad se mantiene bajo supuestos válidos (es decir, una secuencia intercambiable de valores que representa la "repetición" de un experimento). Todos los bayesianos son también "frecuentistas", en el sentido de que aceptamos las leyes de los grandes números y estamos de acuerdo en que la probabilidad se corresponde con la frecuencia límite en las circunstancias adecuadas. Dado que no hay ningún desacuerdo real sobre las leyes subyacentes de los grandes números, considero una tontería decir que un grupo es una escuela "frecuentista" y el otro no.
Esto me ha hecho pensar: ¿hasta qué punto tengo que considerar esto?
Puede que otros no estén de acuerdo, pero mi opinión es que si quieres ser un buen estadístico, es importante que te tomes en serio las cuestiones fundamentales de este campo y les dediques una reflexión seria durante tu formación. Las cuestiones filosóficas y metodológicas pueden parecer alejadas del análisis de datos, pero son cuestiones fundamentales que informan sobre la elección de los métodos de modelización y la interpretación y comunicación de los resultados.
Aprender algo siempre implica una compensación (aunque no siempre contra otro aprendizaje), por lo que tendrá que decidir la compensación adecuada entre aprender las cuestiones filosóficas y fundamentales de la estadística, frente a utilizar su tiempo para otra cosa. Esta compensación dependerá de tus aspiraciones específicas, en términos de lo detallado que quieras que sea tu conocimiento de la materia. Cuando me preparé para ser un académico en este campo (es decir, cuando hice mi doctorado) pasé mucho tiempo leyendo artículos filosóficos sobre este tema, reflexionando sobre sus implicaciones y manteniendo conversaciones nocturnas sobre el tema con jóvenes reticentes en fiestas universitarias. Mi opinión ahora -como académico en ejercicio- es que fue un tiempo bien empleado.
Si quiero ser estadístico, ¿tengo que alinearme con una filosofía?
Si encuentras que una filosofía/metodología es exclusivamente correcta, entonces debes alinearte completamente con esa filosofía/metodología. Sin embargo, hay muchos estadísticos que encuentran algún mérito en cada enfoque en diferentes circunstancias, o consideran que un paradigma es filosóficamente correcto, pero difícil de aplicar en ciertos casos. En cualquier caso, no es necesario alinearse exclusivamente con un enfoque.
Para ser un buen estadístico, sin duda hay que entender la diferencia entre los dos paradigmas y ser capaz de aplicar modelos en cualquiera de ellos. También hay que saber cuándo es más fácil aplicar un determinado enfoque para resolver un problema concreto. (Por ejemplo, con los métodos clásicos surgen algunas "paradojas" que se resuelven fácilmente con el análisis bayesiano. Por el contrario, algunas situaciones de modelización son difíciles de tratar en el análisis bayesiano, como cuando queremos contrastar una hipótesis nula específica con una hipótesis alternativa amplia pero vaga). En general, si puede ampliar su "caja de herramientas" para familiarizarse con más métodos y modelos, tendrá una mayor capacidad para desplegar métodos eficaces en problemas estadísticos.
Antes de abordar un problema, ¿tengo que mencionar específicamente qué escuela de pensamiento voy a aplicar?
Esto depende del contexto, pero para fines generales de modelización, no --- esto será obvio por el tipo de modelo y análisis que aplique. Si aplicas una distribución a priori a los parámetros desconocidos y obtienes una distribución posterior, sabremos que estás haciendo un análisis bayesiano. Si trata los parámetros desconocidos como "constantes desconocidas" y utiliza métodos clásicos, sabremos que está utilizando un análisis clásico. En un buen escrito estadístico se debe indicar explícitamente el modelo que se está utilizando (y tal vez dar referencias si se está escribiendo un artículo académico), y se puede aprovechar esta ocasión para señalar explícitamente si se está haciendo un análisis bayesiano, pero incluso si no se hace, será obvio.
Por supuesto, si el problema que está abordando es un problema teórico o filosófico (a diferencia de un problema de análisis de datos), entonces puede depender de la interpretación pertinente de la probabilidad y del consiguiente paradigma metodológico. En estos casos, deberá indicar explícitamente su enfoque filosófico/metodológico.
Y, sobre todo, ¿tengo que tener cuidado de no mezclar los enfoques frecuentista y bayesiano y provocar contradicciones/paradojas?
A menos que considere que uno de estos métodos es totalmente inválido, de modo que no debería utilizarse nunca, es lógico que esté bien mezclar métodos en las circunstancias adecuadas. Una vez más, comprender los puntos fuertes y débiles de cada paradigma le ayudará a entender cuándo es más fácil aplicar un paradigma u otro.
En el trabajo estadístico práctico, es bastante común ver análisis bayesianos que tienen algunos métodos clásicos aplicados con fines de diagnóstico para probar los supuestos subyacentes. Por lo general, esto ocurre cuando queremos probar algún supuesto de un modelo bayesiano frente a una alternativa amplia y vaga (es decir, cuando la alternativa no se especifica como un modelo paramétrico que sea en sí mismo susceptible de análisis bayesiano). Por ejemplo, podríamos llevar a cabo un análisis bayesiano utilizando un modelo de regresión lineal, pero luego aplicar la prueba de Grubb (una prueba de hipótesis clásica) para comprobar si el supuesto de los términos de error normalmente distribuidos es razonable. Alternativamente, podríamos realizar análisis bayesianos alternativos utilizando un conjunto de modelos diferentes, pero luego realizar una validación cruzada utilizando métodos clásicos. Puede que haya algunos "puristas" bayesianos que eviten por completo los métodos clásicos, pero son raros.
Si se mezclan los dos métodos, hay que tener cuidado de no crear contradicciones o "paradojas" en el análisis, pero obviamente eso va a requerir un buen conocimiento de los dos paradigmas, lo que obliga a dedicar tiempo a su aprendizaje.
Intento añadir algo a las respuestas ya existentes que merezca la pena leer.
-
Creo que en la discusión de los fundamentos se tocan cuestiones básicas sobre las que es importante pensar como estadísticos, en particular "¿qué entendemos por probabilidad?" También es crucial entender la "lógica inferencial" cuando se realizan, por ejemplo, pruebas, intervalos de confianza o se calculan los posteriors.
-
También creo que es importante saber que los problemas van más allá de la distinción bayesiano/frecuentador. En particular, hay diferentes variedades de bayesianos, que tienen al menos hasta cierto punto una comprensión diferente de las probabilidades, principalmente los subjetivistas radicales, los llamados bayesianos objetivos, y las personas que prefieren el razonamiento bayesiano sobre los modelos y los parámetros, pero que, sin embargo, dan a los modelos y a los parámetros un significado frecuentista, llamado "Bayes falsacionista" en la sección 5 de Gelman y Hennig (2017) donde dan una visión razonablemente "neutral". Además, existen conceptos de "probabilidades aleatorias" (por oposición a las epistémicas, es decir, que formalizan la incertidumbre subjetiva) que no están directamente relacionados con las frecuencias de largo plazo (a menudo denominadas "propensiones").
-
Desde mi punto de vista, una clave para entender los conceptos de los fundamentos de la estadística y las probabilidades es que, en general, estamos tratando con modelos matemáticos, y la realidad es diferente, es decir, no hay probabilidades frecuentistas "verdaderas" que se puedan encontrar, y tampoco hay ningún "razonamiento verdaderamente racional y correcto" que sea idéntico al modelo bayesiano de la misma. Independientemente de si trabajamos de forma bayesiana o frecuentista (y de qué variedad concreta de éstas), utilizamos los modelos con el fin de disponer de razonamientos matemáticos para comprender los fenómenos de la realidad, lo que implica abstracción, simplificación y también, de un modo u otro, manipulación. Los utilizamos como herramientas para pensar; se adaptan a nuestro pensamiento, no en primer lugar a ninguna realidad ajena a nuestro pensamiento. Por esta razón, todo tipo de cuestiones prácticas (como los problemas con los planes de muestreo, las mediciones, los valores perdidos, los factores de confusión no observados, etc.) son importantes, en cierta medida para mejorar nuestros modelos, y en cierta medida para comprender los límites de lo que podemos hacer con cualquier enfoque.
-
Esto significa que, personalmente, creo que los diferentes enfoques fundacionales no deberían considerarse como una filosofía de la estadística "correcta" o "incorrecta", y esto también significa que nadie necesita comprometerse con uno solo de ellos. En particular, las probabilidades "epistémicas" (tal y como se emplean a menudo, aunque no siempre, en el razonamiento subjetivo/"objetivo" bayesiano) modelan la incertidumbre de un individuo o de la ciencia/la humanidad en su conjunto, mientras que las probabilidades "aleatorias" (tal y como se emplean normalmente en el razonamiento frecuentista) modelan el comportamiento de los procesos de generación de datos que existen en el mundo. Son diferentes, y uno puede perfectamente estar interesado en una cosa respecto a una pregunta de investigación y en otra cosa respecto a otra.
-
Sin embargo, creo que "mezclarlos" en el mismo estudio es problemático. Cuando se hacen modelos probabilísticos, los resultados vienen en forma de probabilidades (ya sean valores p, niveles de confianza o probabilidades posteriores), por lo que debería utilizarse un significado coherente para todas las probabilidades que se dan en el mismo modelo. Creo que los estadísticos deberían tener claro lo que quieren decir cuando emplean las probabilidades en determinadas circunstancias, y la mezcla a menudo se hace de forma que no queda clara (en particular, veo muchos trabajos bayesianos en los que la probabilidad se interpreta aparentemente de forma frecuentista, refiriéndose a procesos de generación de datos realmente existentes, en los que no se explica lo que quieren expresar las probabilidades a priori, aunque a veces se relacionen de forma muy aproximada con algún conocimiento disponible).
-
Sin embargo, también creo que puede haber una "mezcla legítima", por ejemplo en situaciones en las que la distribución a priori puede interpretarse como generada a partir de un "proceso real" (por ejemplo, de estudios/problemas de un tipo similar), o cuando los bayesianos, al aplicar probabilidades consistentemente epistémicas, siguen interesados en las propiedades frecuentistas de lo que están haciendo, porque pueden encontrar la lógica de la modelización frecuentista ("qué pasaría si la realidad se comportara según el modelo frecuentista X") útil para aprender sobre las implicaciones de los métodos bayesianos. A veces se pueden introducir los priores argumentando que su introducción mejora las características frecuentistas de un método, en lugar de argumentar que expresan adecuadamente las probabilidades epistémicas subjetivas u objetivas. Así que creo que "mezclar" requiere una cuidadosa distinción entre lo que significan las diferentes probabilidades en las distintas circunstancias, entender claramente por qué se utiliza una en un lugar y otra en otro, y por qué se han juntado.
Lo que no debes hacer es alinearte con una en el sentido de declarar que una de ellas es "correcta" y la otra "incorrecta". No son más que dos puntos de vista diferentes sobre lo mismo, que te proporcionan "herramientas del oficio" alternativas. Como experto, debes conocer ambos. Por razones prácticas, puede optar por especializarse más en uno que en otro. Como analogía, piense en un chef especializado en cocina francesa, pero que puede preparar un buen curry tailandés cuando la ocasión lo requiere.
Su pregunta suena como si temiera la presencia de una guerra de dogmas en la estadística. Estas guerras de dogmas ocurren en la ciencia de vez en cuando, pero yo diría que son más un artefacto de la forma en que los humanos hacen ciencia, que basadas en hechos del mundo real. El desarrollo habitual de las guerras de dogmas es el siguiente: primero hay dos teorías sobre un problema "candente" no resuelto, luego hay un concurso de popularidad que se desvanece a lo largo de unas décadas, y después la siguiente generación de científicos descubre que ambas teorías tienen mérito y no son tan excluyentes como se presentaban en el momento álgido del debate. Se pueden encontrar muchos buenos ejemplos históricos de esto, por ejemplo, los economistas keynesianos frente a los neoclásicos de principios del siglo XX, o la cuestión de si las influencias ambientales son heredables (a menudo todavía simplificada como darwinistas frente a lamarckianos).
Por suerte, en la actualidad no existe una guerra de dogmas de este tipo en la comunidad estadística (y no la había ni siquiera cuando Bayes estaba vivo), así que no hay que elegir un bando y tratar de llevarlo a la victoria o caer luchando. Un estadístico que se declara frecuentista es, en el mejor de los casos, un intento de decir "prefiero trabajar con herramientas frecuentistas", y en el peor de los casos, un snob que considera que todas las demás filosofías "no son adecuadas", imagínese aquí de nuevo al chef francés, tal vez premundialista, que considera que la comida tailandesa es "incomible".
Debe entender la declaración "frecuentista" (o "bayesiana") como una señal importante sobre el tipo de información que obtendrá de las clases o la discusión con esa persona, y eso es todo.
Muchas personas han dado respuestas mucho mejores de las que yo podría dar, pero hay dos cosas que quería añadir.
-
El campo, la hipótesis y el tipo de datos con los que se trabaja pueden influir en gran medida en la filosofía que se utilice. La hipótesis "La masa de un neutrón es 1,001 veces la masa de un protón" tiene definitivamente una respuesta verdadera o falsa. Un enfoque frecuentista sería muy adecuado para comprobar esta hipótesis. Compárelo con "La competencia lleva a las poblaciones a zonas diferentes". Esto no siempre es cierto, pero sí lo es muchas veces. Es completamente válido interpretar una prueba bayesiana de esta hipótesis como la frecuencia con la que es cierta o la importancia de este efecto.
-
Creo que deberías escribir cómo vas a analizar los datos antes de mirarlos. Siempre que decidas desviarte de este plan, añade una explicación de por qué antes de hacer las nuevas pruebas. Esta es una forma de ayudarte a identificar los sesgos antes de que influyan en tu trabajo. Además, si guardas este documento con una junta de revisión independiente, eres casi inmune a las acusaciones de p-hacking.
- Ver respuestas anteriores
- Ver más respuestas