Creo que estás usando "teórico" en la forma en que se usa en el lenguaje común, para significar "remotamente posible". Estas distribuciones son teóricas porque se basan en la teoría. La teoría especifica condiciones, y si estas condiciones se aplican, la teoría es aplicable.
Así que no sólo hay que averiguar qué distribución puede ajustarse a los datos. Ese es un error común de novato que es fácil en una época en la que puedes conseguir fácilmente un programa y pedirle que ajuste 100 curvas diferentes a algunos datos. Es posible que puedas hacer esto y luego inyectar algo de conocimiento de dominio en la situación, "Hmmm... estos datos son de naturaleza biológica y parecen ajustarse a una curva de crecimiento que es común en la biología, así que me da algunas pistas sobre un mecanismo subyacente para los datos", pero sin la aplicación del conocimiento de dominio al problema, sólo estás haciendo vudú de ajuste de curvas.
Más bien, un científico examina las condiciones en las que se realizaron las mediciones, los mecanismos subyacentes que son plausibles y elige las distribuciones que serían aplicables. Por supuesto, se utiliza una distribución porque hay variación e incertidumbre en los datos, por lo que no se debe esperar que todos los puntos de los datos caigan exactamente en alguna curva
Como las cosas no coinciden exactamente, ¿los cálculos están mal? Sí. La pregunta es "¿cómo de equivocados y por qué razón?". Si la respuesta es "no muy incorrectos, y principalmente por pequeños errores de medición", es suficiente. Ninguna aplicación de ninguna teoría va a encajar perfectamente en el mundo real, pero si se aplica correctamente se acercará lo suficiente para hacer lo que se necesita.
Lo que plantea la pregunta: "¿qué pretendes hacer con los datos?". Si te conformas con suponer que has medido a toda la población sin errores, y no vas a hablar de nada fuera de la población, y no te importa especular sobre los mecanismos subyacentes, no necesitas distribuciones. Si quieres medir las alturas de los miembros de tu familia (la población) y hacer afirmaciones como "la persona más alta de nuestra familia es X, y la más baja es Y, y la mitad de las personas de nuestra familia son más altas que Z y la otra mitad son más bajas", perfecto para ti. No hay necesidad de distribuciones en absoluto, suponiendo que se ignora el error de medición, por supuesto.
Si vas a ir más allá, si no puedes medir a toda la población, tendrás que utilizar distribuciones para tener en cuenta la variabilidad y la incertidumbre. No se trata de distribuciones arbitrarias, sino de distribuciones aplicables a partir del conocimiento de tus objetivos, tus datos, tus mecanismos supuestos (modelo), etc.