5 votos

Necesita ayuda para entender lo que una transformación logarítmica natural está haciendo y por qué se requieren transformaciones específicas para la regresión lineal

Estoy tomando un curso online de "Introducción a la IA" para el cual estoy haciendo algunos laboratorios de aprendizaje de máquinas azules. Este curso es en gran parte sobre cómo aplicar soluciones ML azules y, si bien hay un "módulo de matemáticas esenciales para la ML", no hace ningún tipo de inmersión profunda en las matemáticas/estadísticas. Pero quiero entender lo que está pasando matemáticamente a un nivel básico. (He tomado una introducción a la estadística, eso es todo hasta ahora.) A continuación hay algunos detalles sobre algunas cosas específicas que me gustaría entender más, y mis preguntas específicas.

En un punto particular del laboratorio de "entrenamiento de un modelo de clasificación", está este texto: "La distribución de la columna de edad en el conjunto de datos de diabetes.csv está sesgada porque la mayoría de los pacientes están en el grupo de edad más joven. La creación de una versión de esta característica que utilice una transformación de logaritmo natural puede ayudar a crear una relación más lineal entre la Edad y otras características, y mejorar la capacidad de predecir la etiqueta de Diabético. Este tipo de ingeniería de características, como se llama, es común en la preparación de datos de aprendizaje automático".

A continuación, las instrucciones muestran cómo utilizar Azure ML Studio para aplicar la operación de registro natural a la columna de edad en el conjunto de datos: natural log transform in azure ml studio

Y después de hacer eso, los datos incluyen los datos de la edad original/baja y los datos de la edad transformada: Resulting data visualized

Pregunta #1: ¿Qué está haciendo realmente esa transformación? No me refiero a las matemáticas básicas, pero ¿qué está haciendo conceptualmente?

Pregunta #2: El próximo general la pregunta es por qué es necesaria una transformación. Sobre eso, investigué un poco y encontré este artículo ( https://www.r-statistics.com/2013/05/log-transformations-for-skewed-and-wide-distributions-from-practical-data-science-with-r/ ) que describe qué tipo de transformaciones logísticas utilizar en unos pocos escenarios. Aquí hay un recorte de texto del artículo: "La necesidad de transformación de datos puede depender del método de modelación que se planee utilizar. Para la regresión lineal y logística, por ejemplo, lo ideal es asegurarse de que la relación entre las variables de entrada y las variables de salida sea aproximadamente lineal, que las variables de entrada sean aproximadamente normales en la distribución y que la variable de salida sea de varianza constante (es decir, que la varianza de la variable de salida sea independiente de las variables de entrada). Es posible que tenga que transformar algunas de sus variables de entrada para cumplir mejor estos supuestos".

No entiendo por qué nada de eso es necesario. He desglosado mi pregunta:

Para la regresión lineal y logística, por ejemplo, lo ideal es asegurarse de eso: la relación entre las variables de entrada y las variables de salida es aproximadamente lineal - ¿por qué? las variables de entrada son aproximadamente normales en la distribución - ¿por qué? la variable de salida es de varianza constante (es decir, la varianza de la variable de salida es independiente de las variables de entrada - ¿por qué?

¿Podría alguien ayudar con información para esos porqués, o señalarme el material que ayudaría?

9voto

eldering Puntos 3814

Hay muchas cosas aquí que se pueden descomponer. Odio decirlo, pero algunos de los consejos de su curso están bastante equivocados y equivocados.

¿Qué está haciendo realmente esa transformación? No me refiero a las matemáticas básicas, pero ¿qué está haciendo conceptualmente?

Las matemáticas aquí son bastante simples. Tienes un montón de medidas de la edad de la gente que te gustaría usar como una característica para predecir alguna otra medida (parece la probabilidad de que algo ocurra). Simplemente estás creando un nuevo que es el logaritmo de la característica original. A continuación explicaré por qué querrías hacer esto.

Para la regresión lineal y logística, por ejemplo, lo ideal es asegurarse de que: la relación entre las variables de entrada y las variables de salida sea aproximadamente lineal - ¿por qué?

Esta es una suposición estructural de los modelos de regresión lineal y logística. Me centraré en la regresión lineal, porque es un poco más simple, pero lo mismo vale para la regresión logística.

El modelo de regresión lineal hace predicciones construyendo una fórmula basada en los datos que se introducen en el algoritmo. Todos los modelos de predicción funcionan de esta manera, pero la regresión lineal se distingue por construir la fórmula más simple posible. Si $y$ es lo que estás tratando de predecir, y $x_1, x_2, \ldots $ son las características que estás usando para predecirlo, entonces la fórmula de regresión lineal es:

$$y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \cdots + \beta_k x_k$$

Aquí, el $ \beta_i $ son sólo números, y el trabajo del algoritmo es determinar qué números funcionan mejor.

Fíjense que si varían uno de los $x$ y mira cómo la salida $y$ cambios como resultado, obtendrás una línea. Esto es una consecuencia directa de la forma en que funciona el modelo de regresión lineal. Si quieres que te dé resultados sensatos, entonces necesitas asegurarte de que esta suposición de las líneas de dibujo es al menos aproximadamente cierta.

las variables de entrada son aproximadamente normales en la distribución ¿por qué?

Esto está simplemente mal. La regresión lineal funciona bien incluso si la distribución de las variables de entrada es altamente no normal. Lo que es importante es la relación entre las entradas y las salidas, no la distribución de las entradas mismas.

A esto me refería con el consejo de que el curso estaba equivocado. Usted no transforman las variables de entrada porque su distribución es sesgada, las transformas de manera que la forma lineal que el modelo trata de dibujar a través de sus datos sea razonable

Por ejemplo, aquí hay un gráfico de dispersión que encontré en línea del PIB de un país frente a su esperanza de vida media (la atribución está en la imagen):

GDP vs. Life Expectancy

Claramente, dibujar una línea a través del diagrama de dispersión es completamente irrazonable, así que la ecuación de regresión lineal:

$$ \text {Life Expectancy} = \beta_0 + \beta_1 \text {GDP} $$

es una mala elección para los datos. Por otro lado, parece que una relación logarítmica es razonable, así que algo así como:

$$ \text {Life Expectancy} = \beta_0 + \beta_1 \log ( \text {GDP}) $$

parece que funcionaría mucho mejor. Este es el tipo de situación en la que transformar las medidas del PIB con un logaritmo es una buena idea. Pero no tiene nada que ver con la distribución del PIB. No puedes decir que es una buena idea dibujando un histograma del PIB, se trata de la relación entre el PIB y la esperanza de vida.

la variable de salida es de variación constante (es decir, la variación de la variable de salida es independiente de las variables de entrada - ¿por qué?

Este es un tema más profundo de naturaleza diferente a los otros. Para los modelos de predicción, no importa realmente, así que si te estás centrando en aprender a construir buenos modelos de predicción no te preocupes por ahora.

En resumen, esta hipótesis tiene por objeto apoyar el cálculo de la distribución de la muestra de las estimaciones de los parámetros. Por ejemplo, si se quiere decir algo como "la probabilidad de que recoja datos en los que la relación entre el logaritmo (PIB) y la esperanza de vida sea mayor que la que realmente observé, incluso cuando la relación es realmente nula, es muy, muy pequeña" es necesario poder calcular la distribución de muestreo de las estimaciones de los parámetros. Hay varios supuestos que permiten hacerlo, y este supuesto de varianza constante es uno de ellos.

Dicho esto, si sólo estás tratando de hacer predicciones, esto no es realmente relevante. Y en no hay caso es la distribución de los datos de entrada que se supone que es normal, eso es sólo un concepto erróneo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X