Estoy buscando un mejor comportamiento de la distribución de la variable independiente en cuestión, o para reducir el efecto de los valores atípicos, o algo más?
Respuestas
¿Demasiados anuncios?Yo siempre dudan en subirse a un hilo con tantos excelentes respuestas como esta, pero se me ocurre que algunas de las respuestas que proporcionan ninguna razón para preferir el logaritmo a algunos otros de transformación que "aplasta" los datos, tales como una raíz o recíproco.
Antes de llegar a eso, vamos a recapitular la sabiduría en las respuestas existentes en una forma más general. Algunos no-lineal de la re-expresión de la variable dependiente está indicado cuando alguna de las siguientes circunstancias:
Los residuos tienen una distribución sesgada. El propósito de una transformación para obtener los residuos que son aproximadamente distribuidos de forma simétrica (alrededor de cero, por supuesto).
La propagación de los residuos de los cambios de forma sistemática con los valores de la variable dependiente ("heterocedasticidad"). El propósito de la transformación es para quitar ese cambio sistemático en la propagación, logrando aproximado "homoscedasticity."
Para alinear una relación.
Cuando una teoría científica indica. Por ejemplo, la química a menudo se sugiere que expresan concentraciones de los logaritmos (actividades de donación o incluso el conocido pH).
Cuando un nebuloso teoría estadística sugiere que los residuos de reflejar "los errores aleatorios" que no se acumulan de forma aditiva.
Para simplificar el modelo. Por ejemplo, a veces un logaritmo puede simplificar el número y la complejidad de la "interacción" de los términos.
(Estas indicaciones pueden entrar en conflicto el uno con el otro; en tales casos, el juicio es necesario).
Así, cuando es un logaritmo que se indique específicamente en lugar de alguna otra transformación?
Los residuos tienen una "fuerte", con marcada asimetría positiva de la distribución. En su libro sobre EDA, John Tukey proporciona cuantitativos formas de estimar la transformación (dentro de la familia de Box-Cox, o de energía, transformaciones) basado en el rango de las estadísticas de los residuos. Lo cierto es que el hecho de que si se toma el registro de symmetrizes los residuos, que probablemente era la forma correcta de re-expresión; de lo contrario, algunos otros re-expresión que se necesita.
Cuando la desviación estándar de los residuales es directamente proporcional a los valores ajustados (y no a algún poder de los valores ajustados).
Cuando la relación está cerca de la exponencial.
Cuando los residuos se cree que reflejan el multiplicatively la acumulación de errores.
De verdad quieres un modelo en el que los cambios marginales en las variables explicativas son interpretados en términos de multiplicativa (porcentaje) cambios en la variable dependiente.
Por último, algunos no - razones para el uso de una re-expresión:
Hacer que los valores atípicos no se parecen a los valores atípicos. Un valor atípico es un dato que no se ajusta a algunos parsimonioso, relativamente simple descripción de los datos. Cambiar la descripción para hacer que los valores atípicos mirar mejor es por lo general una incorrecta inversión de prioridades: en primer lugar obtener una validez científica, estadísticamente buena descripción de los datos y, a continuación, explore la existencia de valores atípicos. No dejes que el ocasional outlier determinar cómo describir el resto de los datos!
Debido a que el software automáticamente lo hizo. (Se ha dicho lo suficiente!)
Debido a que todos los datos son positivos. (Positividad implica a menudo se conoce como asimetría positiva, pero no es necesario. Además, otras transformaciones puede trabajar mejor. Por ejemplo, una raíz a menudo funciona mejor con los contados de datos.)
Para hacer de "malo" de datos (quizás de baja calidad) parecen bien educados.
Para poder representar los datos. (Si una transformación es necesaria para poder representar los datos, es probable que se necesiten para una o más buenas razones ya mencionadas. Si la única razón por la transformación verdaderamente es para planear, seguir adelante y hacerlo, pero sólo para graficar los datos. Dejar los datos no transformados para el análisis.)
Siempre les digo a los estudiantes que hay tres razones para transformar una variable tomando el logaritmo natural. La razón para el registro de la variable a determinar si desea registrar la variable independiente(s), dependiente o ambos. Para ser clara en todo estoy hablando de tomar el logaritmo natural.
En primer lugar, para mejorar el ajuste del modelo como de otros carteles han señalado. Por ejemplo, si los residuos no están normalmente distribuidos, a continuación, tomar el logaritmo de una sesgada variable puede mejorar el ajuste mediante la alteración de la escala y realizar la variable más "normalmente" distribuidos. Por ejemplo, la ganancia es truncada en cero y a menudo exhibe sesgo positivo. Si la variable tiene asimetría negativa podría en primer lugar invertir la variable antes de tomar el logaritmo. Estoy pensando en particular de escalas Likert que se introducen como variables continuas. Aunque esto generalmente se aplica a la variable dependiente de vez en cuando tienen problemas con los residuos (por ejemplo, heterocedasticidad) causada por una variable independiente que puede ser a veces corregida tomando el logaritmo de la variable. Por ejemplo cuando se ejecuta un modelo que explicaba el profesor las evaluaciones en un conjunto de profesor y de la clase de las covariables de la variable "tamaño de la clase" (es decir, el número de estudiantes en el aula) tenían valores atípicos que indujo heterocedasticidad debido a la variación en el profesor las evaluaciones fue menor en cohortes más grandes que en pequeños grupos. El registro de la estudiante de la variable sería de ayuda, aunque en este ejemplo, tanto el cálculo de Errores Estándar Robustos o mediante mínimos Cuadrados Ponderados puede hacer la interpretación más fácil.
La segunda razón para el registro de una o más variables en el modelo es el de la interpretación. Yo llamo a esto la conveniencia de la razón. Si usted registra su dependiente (y) y el independiente (X) variable(s) de sus coeficientes de regresión ($\beta$) will be elasticities and interpretation would go as follows: a 1% increase in X would lead to a ceteris paribus $\beta$% de aumento en Y (en promedio). El registro de un solo lado de la regresión de la "ecuación" que daría lugar a interpretaciones alternativas como se indica a continuación:
Y y X -- una unidad de incremento en X llevaría a una $\beta$ de aumento/disminución en Y
Registro y y Log X -- un 1% de aumento en X llevaría a una $\beta$% de aumento/disminución en Y
Registro y y X -- una unidad de incremento en X llevaría a una $\beta*100$ % de aumento/disminución en Y
Y y Log X -- un 1% de aumento en X llevaría a una $\beta/100$ de aumento/disminución en Y
Y por último, existe una razón teórica para hacerlo. Por ejemplo, algunos de los modelos que nos gustaría cálculo multiplicativo y por lo tanto no lineales. Tomando logaritmos permite que estos modelos para la estimación por regresión lineal. Buenos ejemplos de esto incluyen la Cobb-Douglas función de producción en la economía y la máquina de picar carne Ecuación en la educación. La Cobb-Douglas función de producción, se explica cómo la conversión de las entradas en salidas:
$$Y = A L^\alpha K^\beta $$
donde
$Y$ es el total de la producción o salida de alguna entidad por ejemplo, empresa, finca, etc.
$A$ es la productividad total de los factores (el cambio en la salida, no causado por las entradas por ejemplo, por el cambio en la tecnología o en el tiempo)
$L$ es el insumo de mano de obra
$K$ es la entrada de capital
$\alpha$ & $\beta$ son de salida de las elasticidades.
Tomando logaritmos de esto hace que la función fáciles de estimar mediante MODELOS de regresión lineal como tal:
$$\log(Y) = A + \alpha\log(L) + \beta\log(K)$$
Para más información sobre whuber excelente punto acerca de las razones para preferir el logaritmo a algunas otras transformaciones como una raíz o recíproco, pero el enfoque sobre la base de la interpretación de los coeficientes de regresión resultante de registro de la transformación " en comparación con otras transformaciones, consulte:
Oliver N. Keene. La transformación logarítmica es especial. La estadística en Medicina 1995; 14(8):811-819. DOI:10.1002/sim.4780140810. (PDF de dudosa legalidad disponible en http://rds.epi-ucsf.org/ticr/syllabus/courses/25/2009/04/21/Lecture/readings/log.pdf).
Si usted registro de la independiente de la variable x a la base b, se puede interpretar el coeficiente de regresión (y CI) como el cambio en la variable dependiente y por b-fold aumento en x. (Registros de la base 2 son, por tanto, a menudo es útil ya que se corresponden con el cambio en y por el doble en x, o en los registros a la base 10 si x varía a lo largo de muchos órdenes de magnitud, lo que es más raro). Otras transformaciones, tales como la raíz cuadrada, no tiene tal interpretación sencilla.
Si usted registro de la dependiente de la variable y (no a la pregunta original, pero que varias de las respuestas anteriores se han abordado), me encuentro con Tim Cole idea de 'sympercents atractivo para la presentación de los resultados (que incluso se utiliza en un papel una vez), a pesar de que parece que no han cogido en todo lo que ampliamente:
Tim J Cole. Sympercents: simétrica diferencias de porcentaje sobre el 100 log(e) escala de simplificar la presentación de registro de datos transformados. La estadística en Medicina 2000; 19(22):3109-3125. DOI:10.1002/1097-0258(20001130)19:22<3109::AYUDA-SIM558>3.0.CO;2-F [estoy tan contenta de Stat Med dejado de usar SICIs como DOIs...]
Uno normalmente se toma el registro de entrada de la variable de escala y cambio de distribución (por ejemplo, para hacer una distribución normal). No se puede hacer a ciegas; sin embargo, usted necesita tener cuidado al hacer cualquier escala para asegurar que los resultados aún son interpretables.
Esto se discute en la mayoría de introducción a las estadísticas de los textos. Usted también puede leer Andrew Gelman papel en "Escala de regresión entradas dividiendo por dos desviaciones estándar" para una discusión sobre este tema. Él también tiene una muy buena discusión sobre este en el principio de "Análisis de Datos Utilizando la Regresión Multinivel y/Modelos Jerárquicos".
Tomando el registro no es un método adecuado para tratar con los malos datos/valores atípicos.
Se tiende a tomar los registros de los datos cuando hay un problema con los residuos. Por ejemplo, si se hace una gráfica de los residuales contra un particular covariable y observar un incremento/disminución de patrón (una forma de embudo), luego de una transformación puede ser apropiado. No aleatoria de los residuos suelen indicar que su modelo de suposiciones erróneas, es decir, no normal de los datos.
Algunos tipos de datos, automáticamente se prestan a transformaciones logarítmicas. Por ejemplo, yo suelo tomar registros cuando se trata con concentraciones o edad.
A pesar de las transformaciones no se utiliza principalmente para tratar los valores extremos, que hacen de ayuda desde la toma de registros de calabazas de sus datos.