6 votos

¿Cuál es la intuición para obtener una distribución de la pendiente en la regresión lineal?

Si lo entiendo bien, la regresión lineal encuentra un la mejor línea de ajuste para los datos dados. Puede hacerlo utilizando el cálculo y resolviendo las ecuaciones de intercepción y pendiente o puede resolverlo utilizando un método de optimización como el descenso de gradiente.

Ahora bien, no entiendo por qué todos los programas estadísticos devuelven una distribución de coeficientes (junto con las estimaciones, el error estándar, el valor t, el intervalo de confianza), cuando sólo tenemos una línea y debería tener un valor de pendiente e intercepción. ¿Tienen algo que ver los residuos?

Edición: Parece que mi elección de las palabras "distribución de los coeficientes" causó algunas confusiones. Quise referirme a la distribución de coeficientes estimada que aparece en la salida como se muestra a continuación:

tis confusion

1 votos

¿Puede aclarar qué quiere decir que todos los programas estadísticos devuelven una "distribución de coeficientes"? Llevo utilizando software para hacer regresión con regularidad desde principios de los años 80 (e incluso algunas veces en los 70) en docenas de programas diferentes y me encuentro incapaz de entender lo que dices que hacen todos esos programas. ¿En qué forma se da esta distribución? (¿un dibujo de una densidad o cdf? como una fórmula algebraica?). ¿Puedes mostrar un ejemplo (que no sea ninguna de las cosas que enumeras en "junto con", ya que claramente se trata de algo adicional a la distribución que mencionas)

0 votos

Me siento agradecido de recibir un comentario suyo. Gracias por hacer que esta industria sea acogedora para los novatos y popular entre todos. Por favor, consulte los comentarios que aparecen a continuación para obtener una aclaración.

1 votos

Si te refieres a las respuestas, las leí antes de comentar, pero no vi nada en ellas que pudiera relacionar con lo que tu pregunta parecía sugerir y, de hecho, parecen responder a preguntas totalmente diferentes, por lo que dudo que ambas puedan estar respondiendo a lo que sea que estés preguntando (una u otra podría, pero quizás ninguna lo haga). ¿Puedes aclarar, en tu pregunta, a qué te refieres con una "distribución de coeficientes"? Si no estás seguro de cómo describirlo, ¿podrías mostrar un ejemplo?

7voto

EdM Puntos 5716

Considere la diferencia entre un población y una muestra tomada de esa población.

Es cierto que la regresión lineal estándar proporciona una única línea de mejor ajuste para los datos dados para esta muestra de una población de casos.

Sin embargo, en general nos interesan las características de la población, no sólo de la muestra. La distribución de los valores de los coeficientes representa la forma en que esos valores podrían cambiar en un muestreo repetido de la misma población.

Y, sí, los residuos tienen mucho que ver con una forma de estimar la distribución de los coeficientes, como se explica por ejemplo aquí , basándose en ciertos supuestos estándar. Remuestreo proporciona otra forma de estimar esa distribución sin hacer esas suposiciones.

6voto

user164061 Puntos 281

El verdadero parámetros/coeficientes de regresión

La regresión lineal supone el modelo:

$$y_i = \boldsymbol{\beta} \mathbf{x_i} +\epsilon_i$$

donde $\boldsymbol\beta$ se asume fijo y sólo el término residual $\epsilon_i$ se supone que se distribuye según alguna distribución.

Así que el verdadero parámetro/coeficiente se supone fijo, y es no se supone que están relacionados con una distribución (Es decir, en la regresión lineal, se podría pensar en modelos alternativos que sí expresan distribuciones para los coeficientes)


El estimado parámetros/coeficientes de regresión

Mientras que el verdadero $\boldsymbol{\beta}$ puede ser fija, la estimación $\boldsymbol{\hat\beta}$ puede considerarse que sigue alguna distribución (la estimación depende de una muestra/datos que varía en cada nuevo experimento, por lo que la estimación puede considerarse una variable aleatoria). Esto lleva a dos formas diferentes de expresar la estimación del parámetro, las estimaciones puntuales y las estimaciones de intervalo, y en esta diferencia se puede encontrar la intuición para informar de las estimaciones adicionales como error estándar, valor t, intervalo de confianza:

  • Desde https://en.wikipedia.org/wiki/Point_estimation

    En estadística, la estimación puntual implica el uso de datos muestrales para calcular un único valor (conocido como estimación puntual o estadística) que debe servir como una "mejor estimación" de un parámetro poblacional desconocido parámetro poblacional desconocido (por ejemplo, la media de la población). Más formalmente, es la aplicación de un estimador puntual a los datos para obtener una estimación puntual.

  • Desde https://en.wikipedia.org/wiki/Interval_estimation

    En estadística, la estimación por intervalos es el uso de datos muestrales para calcular un intervalo de valores plausibles de un parámetro poblacional desconocido parámetro Esto contrasta con la estimación puntual, que da un valor único. Jerzy Neyman (1937) identificó la estimación por intervalos ("estimación por intervalo") como distinta de la estimación puntual ("estimación por estimación única"). Al hacerlo, reconoció que los trabajos de entonces citaban los resultados en forma de una estimación más o menos una desviación estándar indicaba que la estimación por intervalo era realmente el problema que los estadísticos tenían en mente.

La estimación del intervalo da una idea un poco mejor de la información que contienen los datos. No es sólo una estimación para un solo parámetro de la población, sino que también transmite algo así como la fuerza de la información que llevan los datos, es decir, hasta qué punto otros valores que este solo estimación, $\boldsymbol{\hat\beta}$ podrían seguir siendo alternativas razonables para el parámetro desconocido $\boldsymbol{\beta}$ .

Más datos, o datos con menos ruido, conducen a una menor desviación de la estimación $\boldsymbol{\hat\beta}$ (y esta desviación puede estimarse a partir de los datos), lo que significa que no todas las estimaciones puntuales pueden considerarse iguales. Con más datos o menores niveles de ruido, es más probable que la estimación esté "cerca" del verdadero parámetro desconocido. Una sola estimación puntual no transmite esta desviación ni lo "cercana" que es la estimación puntual.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X