Estoy realizando una regresión logística binaria para estimar la probabilidad de que se produzca una helada dado un conjunto de variables explicativas. Tengo la intención de llevar a cabo una evaluación de la precisión y, por lo tanto, he dividido mis datos en dos proporciones. El 75% de ellos para entrenar el modelo y el 25% para probarlo. El caso es que cada vez que selecciono una muestra aleatoria del 75% para entrenar el modelo, obtengo estimaciones diferentes de los coeficientes. Por lo tanto, he decidido realizar varias iteraciones y promediar los coeficientes para obtener las estimaciones finales de los coeficientes. Mi pregunta es: ¿es aceptable este tipo de promediación en estadística? y ¿qué más podría hacer? se agradecerá cualquier indicación sobre bibliografía relevante al respecto.
Respuestas
¿Demasiados anuncios?Me gustaría no recomendable para promediar el coeficiente entre diferentes modelos.
Cada vez que construimos un modelo, estamos optimizando el objetivo (por ejemplo, la precisión de la clasificación) en un conjunto de datos específico. Si cambia el conjunto de datos, cambia el modelo. Si se promedian diferentes modelos, la optimización no será válida. De hecho, hay algunos "métodos de promediación", y voy a discutir más adelante. Pero promediar el coeficiente en un "modelo de alto sesgo" como la regresión logística (el modelo lineal suele tener un alto sesgo y una baja varianza en términos de sesgo varianza compensación ) puede no ser una buena idea..
Tenga en cuenta que incluso añadir un punto de datos al conjunto de datos de entrenamiento puede hacer que cambien los coeficientes. Pero la idea es que el 75% de los datos sean lo suficientemente representativos como para que los coeficientes "no cambien demasiado".
Por ejemplo, pensemos en un ejemplo de juguete, que queremos utilizar el peso de una persona para clasificarla como hombre o mujer. Día uno, se selecciona el 75% de los datos y se obtiene que el coeficiente es $0.123$ y el segundo día se obtiene otro conjunto de datos de entrenamiento, y el coeficiente es $0.1232$ hay algunas diferencias, pero no cambios drásticos. La clave es que somos captar la relación física entre el peso y el sexo. Una variación muy pequeña del coeficiente es normal. Utilizar cualquiera de los coeficientes es bueno y no supondrá demasiada diferencia.
Por otro lado, en algunos casos, promediar los modelos (no promediar los coeficientes, sino hacer algo parecido al voto por mayoría) mejorará el modelo. Esos métodos se denominan "métodos de conjunto", y la idea es intentar promediar muchos modelos sobreajustados para reducir la "varianza" del modelo. Pero la regresión logística es menos propensa al sobreajuste, en comparación con las redes neuronales o los árboles de decisión con muchas divisiones.
No creo que promediar los coeficientes tenga sentido.
Pero, ¿por qué querrías hacerlo? Si quieres construir múltiples modelos logísticos, puedes construirlos, usar las probabilidades predichas para hacer la clasificación y luego promediar la decisión clasificada.
Si se trata de validación cruzada, se espera que cada modelo individual sea diferente (de lo contrario, la CV carece de sentido). Utilice los resultados de la validación cruzada para estimar los errores fuera de la muestra. Una vez más, no es necesario promediar los coeficientes.
En primer lugar, cada vez que toma una muestra aleatoria del 75% de sus datos, está seleccionando un conjunto diferente de observaciones. Por lo tanto, está entrenando un modelo en un conjunto de datos diferente cada vez, razón por la cual los coeficientes de su modelo son diferentes cada vez. Esto es normal. Variarán más si el conjunto de datos es pequeño. Si tiene un conjunto de datos muy grande, habrá muy poca variación entre las muestras aleatorias.
El propósito de dividir el modelo no es directamente estimar los coeficientes del modelo, sino examinar la capacidad del modelo especificado entrenado en los datos de entrenamiento para predecir con precisión los eventos de heladas (o estimar la probabilidad de eventos de heladas) en los datos de prueba. Se suele utilizar para garantizar que el modelo especificado no se ajusta en exceso a los datos. Normalmente se utiliza el estadístico AUC para comprobarlo en la regresión logística (véase ¿Qué significa AUC y qué es? ). Por "modelo especificado" me refiero a la elección de variables predictoras, interacciones, formas no lineales, etc.
Si sólo se divide una vez, se ha optado implícitamente por ignorar la variación inducida por dividir aleatoriamente 75/25. Si no desea ignorar esto, puede dividir repetidamente utilizando la validación cruzada - véase https://en.wikipedia.org/wiki/Cross-validation_(estadísticas) . La validación cruzada puede realizarse de varias formas. La "validación por submuestreo aleatorio repetido" es el método que ya ha considerado intuitivamente. A continuación, deberá promediar los valores del AUC (o cualquier estadística de comprobación del modelo que esté utilizando, pero NO los valores de los coeficientes) en estas divisiones repetidas para obtener una estimación general de la validez del modelo.
Por cierto, si se repite este proceso de muestreo aleatorio un número suficiente de veces, la media de los coeficientes del modelo se aproximará a los valores que se obtienen si se entrena un modelo con todo el conjunto de datos. Esto sugiere que si está satisfecho a priori con el modelo especificado (por ejemplo, si está seguro de que no hay sobreajuste), debería utilizar el conjunto de datos completo en primer lugar, sin dividirlo.