Actualmente estoy en una regresión lineal de la clase, pero no puedo evitar tener la sensación de que lo que estoy aprendiendo no es relevante, ya sea en la estadística moderna o de la máquina de aprendizaje. ¿Por qué es mucho tiempo invertido en hacer inferencia sobre simple o de regresión lineal múltiple cuando tantos interesantes conjuntos de datos en estos días con frecuencia violan muchos de los realistas supuestos de la regresión lineal? ¿Por qué no en lugar de enseñar a la inferencia sobre más flexibles, modernas herramientas como la regresión usando máquinas de vectores soporte o de Gauss proceso? Aunque es más complicado que encontrar una hyperplane en un espacio, no esta de dar a los estudiantes una mejor fondo para el que abordar los días modernos de los problemas?
Respuestas
¿Demasiados anuncios?Es cierto que los supuestos de la regresión lineal, no son realistas. Sin embargo, esto es cierto de todos los modelos estadísticos. "Todos los modelos están equivocados, pero algunos son útiles".
Supongo que estás bajo la impresión de que no hay ninguna razón para utilizar la regresión lineal cuando usted podría utilizar modelos más complejos. Esto no es cierto, porque en general, los modelos más complejos son más vulnerables a la sobreajuste, y se usan más recursos computacionales, que son importantes si, por ejemplo, que estamos tratando de hacer estadísticas sobre un procesador incorporado o un servidor web. Los modelos más sencillos son más fáciles de entender y de interpretar; por el contrario, el complejo de la máquina-modelos de aprendizaje, tales como las redes neuronales tienden a terminar como cajas negras, más o menos.
Incluso si la regresión lineal algún día llega a ser no más útil en la práctica (lo que parece muy poco probable en el futuro previsible), es teóricamente importante, debido a que los modelos más complejos tienden a basarse en la regresión lineal como una fundación. Por ejemplo, para entender una regularización de efectos mixtos de regresión logística, en el que usted necesita para entender el viejo y simple de regresión lineal de primer.
Esto no quiere decir que la más compleja, la más reciente, y más brillante de los modelos no son útiles o importantes. Muchos de ellos son. Pero los modelos más sencillos son los más ampliamente aplicable y, por tanto, más importante, y claramente el sentido en primer lugar, si usted va a presentar una variedad de modelos. Hay un montón de malas análisis de datos llevado a cabo estos días por personas que se llaman a sí mismos "datos científicos" o algo así, pero no sé ni los fundamentos de cosas, como lo que es un intervalo de confianza que realmente es. No ser una estadística!
De regresión lineal, en general, no es obsoleto. Todavía hay personas que están trabajando en la investigación en torno a LASSO-métodos relacionados, y cómo se relacionan con múltiples pruebas, por ejemplo - puede google Emmanuel Candes y Malgorzata Bogdan.
Si usted está preguntando acerca de algoritmo OLS en particular, la respuesta de por qué enseñan esto es que el método es tan simple que se ha cerrado de forma de la solución. También es sólo más simple que la cresta de la regresión o la versión con lazo/elasticnet. Usted puede construir su intuición/pruebas sobre la solución de regresión lineal simple y, a continuación, a enriquecer el modelo con restricciones adicionales.
No creo que la regresión es antiguo, puede ser considerado como algo trivial para algunos de los problemas que se plantean actualmente por los científicos de datos, pero todavía es el ABC de análisis estadístico. Cómo se supone que debes entender si SVM están trabajando correctamente si usted no sabe cómo el modelo más simple es el trabajo? El uso de una simple herramienta TE enseña a mirar en los datos antes de lanzarse a la locura de modelos complejos y entender profundamente que las herramientas pueden ser usadas en el análisis posterior y que no. Una vez teniendo esta conversación con un profesor y colega mío me contó que sus estudiantes donde los grandes en la aplicación de modelos complejos, pero que no podía entender lo que el apalancamiento es o leer un simple qq-plot para entender lo que estaba mal con los datos. A menudo en la más simple y legible de la modelo se encuentra la belleza.
La respuesta corta es no. Por ejemplo, si intenta modelo lineal con datos MNIST, usted seguirá recibiendo ~90% de la exactitud!
Una larga respuesta sería "dependiendo del dominio", pero el modelo lineal es ampliamente utilizado.
En ciertos campos, digamos, estudio médico, es super costoso obtener un punto de datos. Y el trabajo de análisis todavía es similar a la de hace muchos años: la regresión lineal es todavía juega un papel muy importante.
En morden aprendizaje de máquina, digamos, el texto de la clasificación, el modelo lineal es todavía muy importante, aunque hay otras más elegante de los modelos. Esto es debido a que el modelo lineal es muy "estable", tendrá menos como para que más de ajuste a los datos.
Finalmente, el modelo lineal es realmente los bloques de construcción para la mayoría de los otros modelos. El aprendizaje en bien le beneficiará en el futuro.
En términos prácticos, la regresión lineal es útil incluso si usted también está usando un modelos más complejos para su trabajo. La clave es que la regresión lineal es fácil de entender y por lo tanto fáciles de utilizar para realmente comprender lo que está sucediendo en modelos más complejos.
Te puedo ofrecer un ejemplo de aplicación práctica de mi real en vivo de trabajo como analista de estadística. Si usted se encuentra en la naturaleza, sin supervisión, con un gran conjunto de datos, y su jefe le pide que se ejecute un análisis sobre él, ¿por dónde empezar? Bueno, si usted no está familiarizado con el conjunto de datos y no tienen una buena idea de cómo las distintas funciones que se espera que se relacionan entre sí, a continuación, un modelo complejo como el que se sugiere es un mal lugar para comenzar a investigar.
En cambio, el mejor lugar para comenzar es simple antiguo de regresión lineal. Realizar un análisis de regresión, mira los coeficientes y el gráfico de los residuos. Una vez que empiezas a ver lo que está pasando con los datos, entonces usted puede tomar algunas decisiones en cuanto a lo avanzado de los métodos que van a tratar de aplicar.
Yo aseguro que si usted acaba de enchufar sus datos en algunos de los más avanzados del modelo de caja negra como sklearn.svm (si usted está en Python), entonces usted va a tener muy poca confianza que sus resultados serán significativos.