7 votos

¿Por qué en el método Box-Cox intentamos que x e y se distribuyan normalmente, pero esa no es una suposición para la regresión lineal?

En El libro de Sheather , afirma que

El procedimiento Box-Cox pretende encontrar una transformación que haga que la variable transformada se aproxime a una distribución normal.

Para ser más específicos: enter image description here enter image description here Además, cuando x e y se distribuyen normalmente, las estimaciones de máxima verosimilitud de $\beta_0$ y $\beta_1$ son las mismas que las estimaciones por mínimos cuadrados.

Pero en la regresión lineal simple, en realidad no suponemos que esto sea necesariamente cierto. ¿Por qué?

(Ya que, basándonos en la imagen anterior, parece que sólo cuando x e y se distribuyen normalmente, Y sobre X se aproxima a la linealidad, que es justo el modelo de regresión lineal)

Además, el objetivo del método de Box-Cox es hacer que X e Y se distribuyan de forma más normal, aunque normalmente cuando la gente utiliza este método para la transformación de datos, en realidad quiere hacer que los errores (o residuos estándar) se distribuyan normalmente. ¿Cómo se relacionan estos dos métodos?

1 votos

En realidad, la transformación box-cox encuentra una transformación que homogeneiza la varianza, ¡y la varianza constante es un supuesto! El quid de la cuestión es que boxcox utiliza una probabilidad normal de varianza constante.

1 votos

Ni la cita ni el comentario anterior son totalmente generales. Aunque la transformación Box-Cox puede aplicarse con los objetivos dados en la cita y utilizando un método de ML al que alude @Kjetil, aunque es mucho más general que eso: (1) puede utilizarse para simetría distribuciones y/o crear variaciones casi constantes y/o linealizar relaciones; (2) debería estimarse utilizando métodos exploratorios robustos en lugar de los métodos paramétricos de máxima verosimilitud, mucho más limitados, que ofrecen la mayoría de los paquetes de software. Véase stats.stackexchange.com/a/3530 por ejemplo.

0 votos

@whuber Estoy de acuerdo en que el método de la caja-cox tiene muchos usos, pero lo que también me confunde es que en la regresión lineal no asumimos que x e y se distribuyan normalmente mientras que lo que calcula la transformación de la caja-cox es en realidad hacerlas lo más normales posible. Y en la cita se explica que esto es así porque así estamos más seguros de que x e y tienen relación lineal. Pero si es así, ¿por qué no asumimos esto para la regresión lineal?

6voto

kjetil b halvorsen Puntos 7012

En realidad la transformación box-cox encuentra una transformación que homogeniza la varianza. Y la varianza constante es ¡realmente una suposición importante! El comentario de @whuber: La transformada de Box-Cox es una transformación de datos (normalmente para datos positivos) definida por $Y^{(\lambda)}= \frac{y^\lambda - 1}{\lambda}$ (cuando $\lambda\not=0$ y su límite $\log y$ cuando $\lambda=0$ ). Esta transformación puede utilizarse de diferentes maneras, y el método Box-Cox suele referirse a la estimación por verosimilitud del parámetro de la transformación $\lambda$ . $\lambda$ podría elegirse potencialmente de otras maneras, pero este post (y la pregunta) es sobre este método de elección de la probabilidad $\lambda$ .

Lo que ocurre es que la transformada boxcox maximiza una función de verosimilitud construida a partir de un modelo normal de varianza constante. Y la principal contribución a la maximización de esa probabilidad proviene de la homogeneización de la varianza. ( * ) Se podría construir alguna función de verosimilitud similar a partir de alguna otra familia de escala de localización (quizás, por ejemplo, construida a partir de $t_{10}$ ) y el supuesto de varianza constante, y daría resultados similares. O se podría construir una función de criterio similar a la de Boxcox a partir de una regresión robusta, de nuevo con varianza constante. Daría resultados similares. (eventualmente, quiero volver aquí mostrando esto con algún código).

( * ) Esto no debería sorprender. Dibujando unas cuantas figuras puede convencerse de que cambiar la escala de una densidad es un cambio mucho mayor, que influye en los valores de la densidad (es decir, en los valores de la probabilidad) mucho más que cambiar un poco la forma básica, pero manteniendo la escala.

Una vez construí (con Xlispstat) una demostración deslizante que mostraba esto de forma convincente, pero lo que deberías hacer es simplemente hacer algunos ejemplos sencillos y verás este resultado por ti mismo.

Lo que ocurre es simplemente que la contribución a la función de verosimilitud de la suposición de varianza constante eclipsa en gran medida los cambios en la verosimilitud por pequeños cambios en la forma de la densidad básica $f_0$ utilizado para generar la familia de la escala de localización.

1 votos

Dado que la cuestión se reduce realmente a distinguir el "método Box Cox" de la cita del mucho más general Box-Cox transformación, ayudaría a hacer esa distinción claramente en lugar de confundir las dos cosas.

1 votos

Ampliaré esta respuesta cuando tenga un poco de tiempo

0 votos

La varianza constante no es un supuesto si se utilizan errores estándar basados en el sándwich.

3voto

Aksakal Puntos 11351

Supongo que te refieres a Gráficos de normalidad Box-Cox por "método" en su pregunta. Es cierto que el supuesto de normalidad en OLS no es necesario para que el método sea útil. Por ejemplo, independientemente de la distribución del error, producirá coeficientes insesgados en otras condiciones.

Dicho esto, sin embargo, la suposición de normalidad no es inútil . Por ejemplo, en muestras pequeñas sin el supuesto de normalidad no se puede decir mucho sobre la distribución de probabilidad de los coeficientes más allá de la varianza y la covarianza. Con el supuesto de normalidad se puede estimar esta distribución de probabilidad. En muestras grandes, bajo ciertas condiciones, se puede hacer esto sin el supuesto de normalidad utilizando el teorema del límite central. El supuesto de normalidad hace que la estimación de máxima verosimilitud (MLE) produzca los mismos coeficientes que OLS, y comparte muchas propiedades de los estimadores en (de nuevo) muestras pequeñas.

Por último, mucha gente utiliza la transformación Box-Cox no para normalizar los datos, sino para estabilizar la varianza. A veces la varianza aumenta para niveles más grandes de la variable dependiente. En este caso, la transformación de Box-Cox puede ayudar a que la varianza sea uniforme en toda la muestra. Esto está relacionado con el supuesto de homocedasticidad en OLS

1voto

Haiwen Huang Puntos 36

Siento que mi pregunta sea un poco desordenada, pero una de mis preguntas (y la parte más confusa) es por qué queremos que nuestros predictores y la variable de respuesta sean simétricos o se distribuyan normalmente . Y después de darle vueltas a esto durante dos días, creo que ya tengo la respuesta.

Esto es lo que he encontrado más útil: https://stats.stackexchange.com/a/123252/161581

La idea central es:

las variables transformadas en logaritmo o en potencia, de distribución más normal tienen más probabilidades de cumplir los supuestos de la regresión lineal en particular la linealidad, la homocedasticidad y la distribución normal de los residual.

En cuanto a la razón, la imagen de la cita en mi pregunta puede responder por la parte de la linealidad. O como @Penguin_Knight dijo, variable independiente sesgada tendría algunos puntos de datos con palanca muy alta, potencialmente capaz de sesgar la pendiente de la regresión.

Para los demás, en el enlace anterior, hay dos imágenes (que he copiado a continuación) que muestran cómo la transformación puede ayudar a que la varianza de los errores se parezca más a una constante y a que el gráfico de los residuos tenga un mejor aspecto (es decir, sin un patrón discernible). enter image description here

1 votos

La respuesta a su pregunta: "¿por qué queremos que nuestros datos [te refieres a los residuos] sean simétricos o se distribuyan normalmente?" es que no es así. La razón para aplicar las transformadas de potencia a un resultado es porque aborda una cuestión científica de interés. Sucede que la regresión lineal es una exactamente (no asintótica) cuando residuos se distribuyen normalmente (y de forma idéntica e independiente). Resulta que se necesitan relativamente pocas observaciones para disfrutar de muy buenas aproximaciones a las distribuciones asintóticas de las estadísticas de prueba, los IC y los valores p.

0 votos

Sin embargo, si tiene muestras pequeñas y necesita una inferencia exacta, puede relajar la necesidad de que los residuos se distribuyan normalmente utilizando estadísticas de remuestreo (como la prueba de permutación).

0 votos

@AdamO Siento no haberlo dejado claro. Haces bien en explicarlo. Pero los "datos" de mi respuesta se refieren en realidad a los predictores y a las variables de respuesta. ¿Podrías comentar esto también?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X