5 votos

Tomando el registro de las variables de

Justo antes de empezar la pregunta que me gustaría que todos sepan que he comprobado que los otros subprocesos en la toma de registro de variables, pero aún creo que tengo una pregunta que no ha sido tocado todavía. También me gustaría agradecer a whuber por su respuesta larga a otro registro cuestión aquí.

Esta pregunta se refiere específicamente a una de las razones de por qué tomamos los registros, es decir, la transformación de la distribución de los datos. Cuando tomamos el logaritmo de una variable es generalmente debido a la distribución de la variable es asimétrica y queremos darle una distribución normal. Un ejemplo común de esto en regresiones de MCO en la economía es una variable que denota salarios, renta, PIB, etc. Sin embargo, nadie parece mencionar el teorema del límite central (CLT). El CLT dice que la suma de muchas variables aleatorias normalmente distribuidas, incluso si las distribuciones subyacentes no están distribuidos normalmente. Si el error es la suma de las variables aleatorias $X$$Y$, $\epsilon = Y - X\beta$, entonces seguramente el error se distribuye normalmente, independientemente de la distribución de $X$$Y$. Si este tiene (y la CLT parece mantener bajo muy débil de condiciones), entonces ¿por qué es necesario transformar la variable?

2voto

AdamSane Puntos 1825

Usted puede encontrar esta pantalla muy interesante:

Estos son los residuos de una regresión lineal con diez x-variables (IVs), una sesgada distribución de error (pero con todos los momentos finitos, para que la CT se aplica definitivamente!), y 1000 observaciones (es decir, los datos se ha simulado).

Es normal qqplot, que si los residuos son cerca de lo normal, debe buscar razonablemente cerca de una línea recta.

normal qq plot for a skewed error distribution

Claramente, no es de forma remota apariencia normal! Los residuos son todavía bastante sesgada.

Bueno, tal vez yo no tenía suficiente variables. Aquí está uno para 100 x variables:

lognormal qq plot, p=100

La trama es muy similar - y sigue siendo muy sesgado.

Así que con n=1000 y p=100, no estamos viendo nada de lo que dicen que deberíamos ver.

0voto

Loren Pechtel Puntos 2212

Por tu comentario, Lindberg-Feller CLT requiere de la independencia (pero no idénticamente distribuidas), junto con un número finito de los medios y de la varianza. ¿Estás seguro de que la "Y no puede ser [independiente], por definición, pero este es el caso para todas las regresiones" parte no matar a su argumento? Simplemente porque es la verdad, por definición, no significa que esto no es cierto (o aplicable).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X