Estoy tomando un curso online de "Introducción a la IA" para el cual estoy haciendo algunos laboratorios de aprendizaje de máquinas azules. Este curso es en gran parte sobre cómo aplicar soluciones ML azules y, si bien hay un "módulo de matemáticas esenciales para la ML", no hace ningún tipo de inmersión profunda en las matemáticas/estadísticas. Pero quiero entender lo que está pasando matemáticamente a un nivel básico. (He tomado una introducción a la estadística, eso es todo hasta ahora.) A continuación hay algunos detalles sobre algunas cosas específicas que me gustaría entender más, y mis preguntas específicas.
En un punto particular del laboratorio de "entrenamiento de un modelo de clasificación", está este texto: "La distribución de la columna de edad en el conjunto de datos de diabetes.csv está sesgada porque la mayoría de los pacientes están en el grupo de edad más joven. La creación de una versión de esta característica que utilice una transformación de logaritmo natural puede ayudar a crear una relación más lineal entre la Edad y otras características, y mejorar la capacidad de predecir la etiqueta de Diabético. Este tipo de ingeniería de características, como se llama, es común en la preparación de datos de aprendizaje automático".
A continuación, las instrucciones muestran cómo utilizar Azure ML Studio para aplicar la operación de registro natural a la columna de edad en el conjunto de datos:
Y después de hacer eso, los datos incluyen los datos de la edad original/baja y los datos de la edad transformada:
Pregunta #1: ¿Qué está haciendo realmente esa transformación? No me refiero a las matemáticas básicas, pero ¿qué está haciendo conceptualmente?
Pregunta #2: El próximo general la pregunta es por qué es necesaria una transformación. Sobre eso, investigué un poco y encontré este artículo ( https://www.r-statistics.com/2013/05/log-transformations-for-skewed-and-wide-distributions-from-practical-data-science-with-r/ ) que describe qué tipo de transformaciones logísticas utilizar en unos pocos escenarios. Aquí hay un recorte de texto del artículo: "La necesidad de transformación de datos puede depender del método de modelación que se planee utilizar. Para la regresión lineal y logística, por ejemplo, lo ideal es asegurarse de que la relación entre las variables de entrada y las variables de salida sea aproximadamente lineal, que las variables de entrada sean aproximadamente normales en la distribución y que la variable de salida sea de varianza constante (es decir, que la varianza de la variable de salida sea independiente de las variables de entrada). Es posible que tenga que transformar algunas de sus variables de entrada para cumplir mejor estos supuestos".
No entiendo por qué nada de eso es necesario. He desglosado mi pregunta:
Para la regresión lineal y logística, por ejemplo, lo ideal es asegurarse de eso: la relación entre las variables de entrada y las variables de salida es aproximadamente lineal - ¿por qué? las variables de entrada son aproximadamente normales en la distribución - ¿por qué? la variable de salida es de varianza constante (es decir, la varianza de la variable de salida es independiente de las variables de entrada - ¿por qué?
¿Podría alguien ayudar con información para esos porqués, o señalarme el material que ayudaría?