16 votos

¿Cómo explicaría los modelos lineales generalizados a personas sin formación estadística?

Siempre me cuesta explicar las técnicas estadísticas a un público sin formación estadística. Si quisiera explicar qué es el MLG a ese público (sin utilizar jerga estadística), ¿cuál sería la mejor manera o la más eficaz?

Suelo explicar el MLG en tres partes: (1) el componente aleatorio, que es la variable de respuesta, (2) el componente sistemático, que son los predictores lineales, y (3) la función de enlace, que es la "clave" para conectar (1) y (2). A continuación, daría un ejemplo de regresión lineal o logística y explicaría cómo se selecciona la función de enlace en función de la variable de respuesta. De ahí que actúe como la clave que conecta dos componentes.

0 votos

¿Qué tipo de formación tiene el público? Explicar el MLG a un matemático o a un biólogo es muy diferente.

1 votos

Habrá pocos matemáticos sin formación estadística, @Procrastinator. Pero tu argumento es bueno: tener una idea más clara del público al que va dirigido ayudará a mantener la coherencia y el enfoque de las respuestas. ¿Te importaría editar la pregunta para ampliarla, Ken?

1 votos

Entiendo tu punto, @Procrastinator pero esperaba obtener una respuesta fácil de entender para todos (matemáticos y/o biólogos), en general porque si no tengo formación en matemáticas o biología (que es el caso), de todas formas no sabría cómo explicarles GLM con respecto a su formación.

29voto

Joe Zack Puntos 1248

Si el público realmente no tiene formación estadística, creo que intentaría simplificar bastante más la explicación. En primer lugar, dibujaría un plano de coordenadas en la pizarra con una línea sobre él, así:

y = mx + b

Todos los asistentes a tu charla estarán familiarizados con la ecuación de una recta simple, $\ y = mx + b $ porque eso es algo que se aprende en la escuela primaria. Así que lo mostraría junto al dibujo. Sin embargo, lo escribiría al revés, así:

$\ mx + b = y $

Yo diría que esta ecuación es un ejemplo de regresión lineal simple. Luego explicaría cómo tú (o un ordenador) podríais ajustar dicha ecuación a un diagrama de dispersión de puntos de datos, como el que se muestra en esta imagen:

Scatter plot

Yo diría que aquí, estamos utilizando la edad del organismo que estamos estudiando para predecir lo grande que es, y que la ecuación de regresión lineal resultante que obtenemos (mostrada en la imagen) se puede utilizar para predecir lo grande que es un organismo si conocemos su edad.

Volviendo a nuestra ecuación general $\ mx + b = y $ diría que las x son variables que pueden predecir las y, por eso las llamamos predictores . Las y se denominan comúnmente respuestas .

Entonces volvería a explicar que se trata de un ejemplo de ecuación de regresión lineal simple, y que en realidad hay variedades más complicadas. Por ejemplo, en una variedad llamada regresión logística las y sólo pueden ser 1 ó 0. Se puede utilizar este tipo de modelo si se intenta predecir una respuesta "sí" o "no", como si alguien tiene o no una enfermedad. Otra variedad especial es la llamada Regresión de Poisson que se utiliza para analizar datos de "recuento" o "eventos" (yo no profundizaría más en esto a menos que fuera realmente necesario).

Entonces explicaría que la regresión lineal, la regresión logística y la regresión de Poisson son en realidad ejemplos especiales de un método más general, algo llamado "modelo lineal generalizado". Lo bueno de los "modelos lineales generalizados" es que nos permiten utilizar datos de "respuesta" que pueden tomar cualquier valor (como el tamaño de un organismo en la regresión lineal), tomar sólo 1 o 0 (como si alguien tiene o no una enfermedad en la regresión logística) o tomar recuentos discretos (como el número de eventos en la regresión de Poisson).

Yo diría entonces que en este tipo de ecuaciones, las x (predictores) están conectadas a las y (respuestas) a través de algo que los estadísticos denominan "función de enlace". Utilizamos estas "funciones de enlace" en los casos en que las x no están relacionadas con las y de forma lineal.

En fin, estos son mis puntos de vista sobre el tema. Puede que la explicación que propongo suene un poco rimbombante y tonta, pero si el objetivo de este ejercicio es sólo transmitir la "esencia" al público, quizá una explicación como ésta no esté tan mal. Creo que es importante explicar el concepto de forma intuitiva y evitar palabras como "componente aleatorio", "componente sistemático", "función de enlace", "determinista", "función logit", etc. Si está hablando con personas que no tienen formación estadística, como un biólogo o un médico, se les van a nublar los ojos al oír esas palabras. No saben lo que es una distribución de probabilidad, nunca han oído hablar de una función de enlace, no saben lo que es una función "logit", etc.

En su explicación a un público no estadístico, yo también me centraría en cuándo utilizar qué variedad de modelo. Podría hablar de cuántos predictores se pueden incluir en el lado izquierdo de la ecuación (he oído reglas generales como no más que el tamaño de la muestra dividido por diez). También estaría bien incluir una hoja de cálculo de ejemplo con datos y explicar a la audiencia cómo utilizar un paquete de software estadístico para generar un modelo. A continuación, repasaría paso a paso los resultados de ese modelo e intentaría explicar qué significan las distintas letras y números. Los biólogos no tienen ni idea de estas cosas y están más interesados en saber qué prueba utilizar en cada momento que en comprender las matemáticas que hay detrás de la interfaz gráfica de SPSS.

Agradecería cualquier comentario o sugerencia sobre mi propuesta de explicación, sobre todo si alguien observa errores o se le ocurre una forma mejor de explicarlo.

5 votos

No todo el mundo conoce la ecuación de una recta; ni siquiera todos los estudiantes de posgrado, ni todos los doctores.

6 votos

Es decir, estoy seguro de que hay algún estudiante de posgrado en el mundo que no conoce la ecuación de una recta, pero es de suponer que el público al que querrías explicar los modelos lineales generalizados tendría al menos media idea de álgebra a nivel de bachillerato :-o

1 votos

Estoy de acuerdo contigo Alexander y tu planteamiento me parece muy natural. Yo no me centraría demasiado en la "g" del glm (o demasiado pronto) y tampoco entraría en distinciones sobre aleatorio vs fijo. Por supuesto depende del tiempo que tengas para explicar todo esto.

12voto

mat_geek Puntos 1367

Yo no llamaría a la respuesta un componente aleatorio. Es una combinación de un componente determinista y otro aleatorio.

Creo que describiría así los modelos lineales generalizados. Tenemos una variable de respuesta y un conjunto de variables relacionadas que pueden ayudar a predecir la respuesta. Sin embargo, la respuesta y los predictores no están relacionados linealmente. La función de enlace proporciona una transformación de la respuesta para que la respuesta transformada esté relacionada linealmente con los predictores. Por ejemplo, en la regresión logística, los predictores pueden ser variables continuas que pueden tomar valores en toda la línea real. Pero la respuesta es una probabilidad (la probabilidad de un resultado satisfactorio en un ensayo clínico, por ejemplo). Por tanto, la respuesta está limitada a un valor comprendido entre 0 y 1. La función de enlace en la regresión logística se denomina función logit. Es igual a $\log(p/(1-p))$ . Se puede ver que la función logit transforma una variable restringida a $[0,1]$ a una variable que puede tomar valores sobre toda la línea real. En este caso, la función de enlace hace que la respuesta sea compatible con las variables predictoras y, por lo tanto, es posible convertirla en una función lineal de los predictores más un componente aleatorio.

3 votos

Me pregunto sobre este uso de "respuesta". Nuestro público objetivo probablemente entendería que significa la observado respuesta: sí o no, 0 o 1, etc. En la regresión logística modelizamos algo no observado (y nunca directamente observable); a saber, el azar hipotético de la respuesta. El "vínculo" es simplemente una cuestión de expresar esas posibilidades como log odds en lugar de como probabilidades. La regresión logística supone que las probabilidades logarítmicas varían linealmente con los IV. (Mi uso de "modelo", "suponer" e "hipotético", en lugar de "es" y "predecir", indica también un punto de vista cognitivo y ontológico diferente).

2 votos

Buen punto Whuber.

5voto

Naag Puntos 1

Me gustaría explicarlo diciendo que a veces necesito que las cosas se predijo. Por ejemplo, el precio de una casa da alguna información acerca de él. Decir, su tamaño, la ubicación, la antigüedad de la construcción, etc. Quiero el factor que en un modelo que tiene en cuenta la influencia de estos factores para predecir el precio.

Tomando ahora un sub-ejemplo de, digamos, considero que sólo el tamaño de la casa. Eso implicaría que nada afecta el precio. Podría ser un caso en el que estoy comparando casas que están en la misma localidad, fueron construidos alrededor del mismo tiempo, etc. O podría ser que no quiero complicar las cosas por mí mismo y por lo tanto quiere la vida real para que se ajusten a lo lejos puedo pensar. De pasar, puedo hacer un modelo en el que tengo una lista de los tamaños y los correspondientes precios de propiedades similares (por ejemplo, de las ventas que han estado ocurriendo recientemente... pero para eso tendría serios sesgos de casas que no están a la venta y, por tanto, afectan a los precios de las casas que son. pero vamos a ignorar).

Ahora veo que una de 100 pies cuadrados casa cuesta $1m(obtener más de ti mismo, este es un ejemplo simplificado). Así que, naturalmente, usted esperaría de un 200sq pies de casa a costar el doble. Y que es lo que podríamos llamar un "patrón lineal". Por supuesto, en el momento de recopilar los datos y el tamaño de la parcela vs precio, vemos que no es exactamente el doble. Pero definitivamente hay una tendencia creciente.

Así que intenta cuantificar la tendencia. Cuánto aumentará por cada incremento de pies cuadrados? Que es la regresión lineal.

INSERTE la terminología mapa y continuar con conceptos estadísticos. Una forma de explicar aleatorios y sistemáticos componente podría ser que lo que usted se olvidó de modelo, o posiblemente no podía calibre, es aleatorio. Lo que podría es sistemática. (Por ejemplo, dicen que es de 2008 y desea vender una casa.)

Los supuestos que subyacen a este modelo son que el diagrama de dispersión debe verse como una vara. Que es que Tanto X como y son "Normales". y todos tienen similar de la varianza.

Si ese no es el caso, escriba GLM. y ahora explicar la función de enlace n todo eso.

Es simplificado, pero debería funcionar como una introducción.

Usted puede poner en la historia de GLMs y factorial de los modelos. Cuando Fisher se requiere el inicio de la variación conjunta y en este marco adecuado para ese tipo de complejidad.

Espero que esto ayude...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X