Si el público realmente no tiene formación estadística, creo que intentaría simplificar bastante más la explicación. En primer lugar, dibujaría un plano de coordenadas en la pizarra con una línea sobre él, así:
Todos los asistentes a tu charla estarán familiarizados con la ecuación de una recta simple, $\ y = mx + b $ porque eso es algo que se aprende en la escuela primaria. Así que lo mostraría junto al dibujo. Sin embargo, lo escribiría al revés, así:
$\ mx + b = y $
Yo diría que esta ecuación es un ejemplo de regresión lineal simple. Luego explicaría cómo tú (o un ordenador) podríais ajustar dicha ecuación a un diagrama de dispersión de puntos de datos, como el que se muestra en esta imagen:
Yo diría que aquí, estamos utilizando la edad del organismo que estamos estudiando para predecir lo grande que es, y que la ecuación de regresión lineal resultante que obtenemos (mostrada en la imagen) se puede utilizar para predecir lo grande que es un organismo si conocemos su edad.
Volviendo a nuestra ecuación general $\ mx + b = y $ diría que las x son variables que pueden predecir las y, por eso las llamamos predictores . Las y se denominan comúnmente respuestas .
Entonces volvería a explicar que se trata de un ejemplo de ecuación de regresión lineal simple, y que en realidad hay variedades más complicadas. Por ejemplo, en una variedad llamada regresión logística las y sólo pueden ser 1 ó 0. Se puede utilizar este tipo de modelo si se intenta predecir una respuesta "sí" o "no", como si alguien tiene o no una enfermedad. Otra variedad especial es la llamada Regresión de Poisson que se utiliza para analizar datos de "recuento" o "eventos" (yo no profundizaría más en esto a menos que fuera realmente necesario).
Entonces explicaría que la regresión lineal, la regresión logística y la regresión de Poisson son en realidad ejemplos especiales de un método más general, algo llamado "modelo lineal generalizado". Lo bueno de los "modelos lineales generalizados" es que nos permiten utilizar datos de "respuesta" que pueden tomar cualquier valor (como el tamaño de un organismo en la regresión lineal), tomar sólo 1 o 0 (como si alguien tiene o no una enfermedad en la regresión logística) o tomar recuentos discretos (como el número de eventos en la regresión de Poisson).
Yo diría entonces que en este tipo de ecuaciones, las x (predictores) están conectadas a las y (respuestas) a través de algo que los estadísticos denominan "función de enlace". Utilizamos estas "funciones de enlace" en los casos en que las x no están relacionadas con las y de forma lineal.
En fin, estos son mis puntos de vista sobre el tema. Puede que la explicación que propongo suene un poco rimbombante y tonta, pero si el objetivo de este ejercicio es sólo transmitir la "esencia" al público, quizá una explicación como ésta no esté tan mal. Creo que es importante explicar el concepto de forma intuitiva y evitar palabras como "componente aleatorio", "componente sistemático", "función de enlace", "determinista", "función logit", etc. Si está hablando con personas que no tienen formación estadística, como un biólogo o un médico, se les van a nublar los ojos al oír esas palabras. No saben lo que es una distribución de probabilidad, nunca han oído hablar de una función de enlace, no saben lo que es una función "logit", etc.
En su explicación a un público no estadístico, yo también me centraría en cuándo utilizar qué variedad de modelo. Podría hablar de cuántos predictores se pueden incluir en el lado izquierdo de la ecuación (he oído reglas generales como no más que el tamaño de la muestra dividido por diez). También estaría bien incluir una hoja de cálculo de ejemplo con datos y explicar a la audiencia cómo utilizar un paquete de software estadístico para generar un modelo. A continuación, repasaría paso a paso los resultados de ese modelo e intentaría explicar qué significan las distintas letras y números. Los biólogos no tienen ni idea de estas cosas y están más interesados en saber qué prueba utilizar en cada momento que en comprender las matemáticas que hay detrás de la interfaz gráfica de SPSS.
Agradecería cualquier comentario o sugerencia sobre mi propuesta de explicación, sobre todo si alguien observa errores o se le ocurre una forma mejor de explicarlo.
0 votos
¿Qué tipo de formación tiene el público? Explicar el MLG a un matemático o a un biólogo es muy diferente.
1 votos
Habrá pocos matemáticos sin formación estadística, @Procrastinator. Pero tu argumento es bueno: tener una idea más clara del público al que va dirigido ayudará a mantener la coherencia y el enfoque de las respuestas. ¿Te importaría editar la pregunta para ampliarla, Ken?
1 votos
Entiendo tu punto, @Procrastinator pero esperaba obtener una respuesta fácil de entender para todos (matemáticos y/o biólogos), en general porque si no tengo formación en matemáticas o biología (que es el caso), de todas formas no sabría cómo explicarles GLM con respecto a su formación.
7 votos
Creo que es importante tener en cuenta que se puede obtener una licenciatura, un máster o incluso un doctorado en biología sin haber recibido nunca una clase de estadística, incluso en muchas universidades de primer nivel. Mi licenciatura en bioquímica requería dos semestres de cálculo introductorio y un semestre de ecuaciones diferenciales. La esencia de estas clases se olvida rápidamente porque muchos estudiantes nunca volverán a utilizar estos conocimientos. Así que realmente creo que es necesario simplificar la explicación para los típicos no estadísticos.
0 votos
Un comentario que añadir a las respuestas que aparecen a continuación; si puede entender el ajuste de una línea (es decir, la función de enlace y los predictores lineales), entonces la conexión con la ponderación eficaz de la varianza inversa no es tan difícil de comunicar; simplemente queremos ponderar al alza las contribuciones precisas y a la baja el resto. Esto permite evitar decir algo demasiado técnico sobre la aleatoriedad de los resultados. Los MLG NB se concibieron como (sólo) los modelos en los que se puede utilizar IWLS para obtener el MLE, por lo que la forma de pensar sobre ellos descrita anteriormente capta la mayor parte de por qué son realmente útiles.