3 votos

¿Qué significa el uso de distribuciones para la inferencia estadística?

En la estadística se reúnen muchos datos (por ejemplo, la altura de las personas o los niveles de expresión de los genes) para obtener alguna información. A continuación, para realizar análisis estadísticos, intentan ajustar los datos a una distribución teórica (por ejemplo, la distribución normal) calculando algunos parámetros.

¿Cómo sabemos que nuestros datos siguen esa distribución? Si pudiéramos medir todos los objetos de una población y dibujar una distribución, probablemente obtendríamos algo diferente, una forma distinta a la distribución teórica que hemos pensado. ¿No son entonces erróneos nuestros cálculos si utilizamos una distribución teórica?

Por favor, corríjanme si me equivoco y díganme qué piensan de esto. Creo que es un concepto muy básico en estadística y tengo que aclararlo.

4voto

Loren Pechtel Puntos 2212

Creo que estás usando "teórico" en la forma en que se usa en el lenguaje común, para significar "remotamente posible". Estas distribuciones son teóricas porque se basan en la teoría. La teoría especifica condiciones, y si estas condiciones se aplican, la teoría es aplicable.

Así que no sólo hay que averiguar qué distribución puede ajustarse a los datos. Ese es un error común de novato que es fácil en una época en la que puedes conseguir fácilmente un programa y pedirle que ajuste 100 curvas diferentes a algunos datos. Es posible que puedas hacer esto y luego inyectar algo de conocimiento de dominio en la situación, "Hmmm... estos datos son de naturaleza biológica y parecen ajustarse a una curva de crecimiento que es común en la biología, así que me da algunas pistas sobre un mecanismo subyacente para los datos", pero sin la aplicación del conocimiento de dominio al problema, sólo estás haciendo vudú de ajuste de curvas.

Más bien, un científico examina las condiciones en las que se realizaron las mediciones, los mecanismos subyacentes que son plausibles y elige las distribuciones que serían aplicables. Por supuesto, se utiliza una distribución porque hay variación e incertidumbre en los datos, por lo que no se debe esperar que todos los puntos de los datos caigan exactamente en alguna curva

Como las cosas no coinciden exactamente, ¿los cálculos están mal? Sí. La pregunta es "¿cómo de equivocados y por qué razón?". Si la respuesta es "no muy incorrectos, y principalmente por pequeños errores de medición", es suficiente. Ninguna aplicación de ninguna teoría va a encajar perfectamente en el mundo real, pero si se aplica correctamente se acercará lo suficiente para hacer lo que se necesita.

Lo que plantea la pregunta: "¿qué pretendes hacer con los datos?". Si te conformas con suponer que has medido a toda la población sin errores, y no vas a hablar de nada fuera de la población, y no te importa especular sobre los mecanismos subyacentes, no necesitas distribuciones. Si quieres medir las alturas de los miembros de tu familia (la población) y hacer afirmaciones como "la persona más alta de nuestra familia es X, y la más baja es Y, y la mitad de las personas de nuestra familia son más altas que Z y la otra mitad son más bajas", perfecto para ti. No hay necesidad de distribuciones en absoluto, suponiendo que se ignora el error de medición, por supuesto.

Si vas a ir más allá, si no puedes medir a toda la población, tendrás que utilizar distribuciones para tener en cuenta la variabilidad y la incertidumbre. No se trata de distribuciones arbitrarias, sino de distribuciones aplicables a partir del conocimiento de tus objetivos, tus datos, tus mecanismos supuestos (modelo), etc.

2voto

Zizzencs Puntos 1358

En la estadística se recogen datos por muchas razones; a veces se trata de ver si una muestra se ajusta a una determinada distribución. En este caso, existen tanto pruebas estadísticas (por ejemplo, Kolmogorov Smirnov) como métodos gráficos (gráficos de cuantiles frente a una distribución teórica. ¿Es eso lo que quería decir?

Lo más frecuente es recopilar datos no para ver si se ajustan a una distribución, sino para ver si (para ser general) "está ocurriendo algo". Es posible que queramos comprobar una hipótesis (por ejemplo, que los hombres son más altos que las mujeres) o que queramos explorar (por ejemplo, qué diferencia de estatura tienen las personas de distintos grupos étnicos). Algunos modelos (por ejemplo, la regresión de mínimos cuadrados ordinarios) hacen suposiciones, y a veces éstas implican una distribución (por ejemplo, la regresión OLS quiere que los residuos se distribuyan normalmente). También hay formas de comprobar si se cumplen los supuestos. Otros métodos hacen pocas o ninguna suposición sobre las distribuciones (por ejemplo, las pruebas de permutación).

1voto

Leeor Puntos 269

Leo Breiman, el padre de los bosques aleatorios, escribió un documento sorprendente sobre el tema. Modelado estadístico: Las dos culturas .

No sería correcto decir que todos los algoritmos de inferencia estadística se basan en modelos estadísticos, pero en general es así. Esta pregunta fue planteada por otros y condujo al desarrollo de la comunidad de aprendizaje automático.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X