Imagina que eres un médico en una unidad de cuidados intensivos. Tienes un paciente con una fuerte fiebre y un número determinado de células sanguíneas y un peso corporal determinado y cien datos diferentes y quieres predecir si va a sobrevivir. Si es así, va a ocultar esa historia sobre su otro hijo a su esposa, si no, es importante que lo revele, mientras pueda.
El médico puede hacer esta predicción basándose en los datos de los antiguos pacientes que tuvo en su unidad. Basándose en sus conocimientos de software, puede predecir utilizando una regresión lineal generalizada (glm) o mediante una red neuronal (nn).
1. Modelo lineal generalizado
Hay demasiados parámetros correlacionados para el glm, por lo que para llegar a un resultado, el médico tendrá que hacer suposiciones (linealidad, etc.) y tomar decisiones sobre qué parámetros pueden influir. El glm le recompensará con una prueba t de significación para cada uno de sus parámetros, por lo que podría reunir pruebas sólidas de que el sexo y la fiebre tienen una influencia significativa, pero el peso corporal no necesariamente.
2. Red neuronal
La red neuronal se tragará y digerirá toda la información que haya en la muestra de antiguos pacientes. No le importará si los predictores están correlacionados y no revelará mucha información sobre si la influencia del peso corporal parece ser importante sólo en la muestra en cuestión o en general (al menos no al nivel de experiencia que el médico tiene que ofrecer). Sólo calculará un resultado.
¿Qué es mejor?
El método que se elija depende del ángulo desde el que se mire el problema: como paciente, preferiría la red neuronal, que utiliza todos los datos disponibles para hacer la mejor conjetura sobre lo que me va a pasar, sin suposiciones fuertes y obviamente erróneas como la linealidad. Como médico, que quiere presentar unos datos en una revista, necesita valores p. La medicina es muy conservadora: van a pedir valores p. Así que el médico quiere informar de que, en tal situación, el género tiene una influencia significativa. Para el paciente, eso no importa, sólo utiliza la influencia que la muestra sugiere como más probable.
En este ejemplo, el paciente quiere predicción, el lado científico del médico quiere inferencia. En general, cuando se quiere entender un sistema, la inferencia es buena. Si tienes que tomar una decisión en la que no puedes entender el sistema, la predicción tendrá que ser suficiente.