24 votos

¿Tiene una visión global de esas técnicas de análisis?

Actualmente estoy en un proyecto en el que básicamente necesito, como todos, entender cómo la salida $y$ está relacionado con la entrada $x$ . La particularidad aquí es que los datos $(y,x)$ se me da una pieza a la vez, por lo que quiero actualizar mi análisis cada vez que reciba un nuevo $(y,x)$ . Creo que esto se denomina procesamiento "en línea", a diferencia del procesamiento "por lotes", en el que se tienen todos los datos necesarios y se realizan los cálculos utilizando todos los datos al mismo tiempo.

Así que he buscado ideas y finalmente he llegado a la conclusión de que el mundo se divide en tres:

  • La primera parte es el terreno de la estadística y la econometría. La gente hace OLS, GLS, variables instrumentales, ARIMA, pruebas, diferencia de diferencias, PCA y demás. Esta tierra está dominada en su mayoría por la linealidad y hace sólo el procesamiento "por lotes".

  • La segunda parte es la isla del aprendizaje automático y otras palabras como inteligencia artificial, aprendizaje supervisado y no supervisado, redes neuronales y SVM. Aquí se realiza tanto el procesamiento "por lotes" como el "en línea".

  • La tercera parte es todo un continente que acabo de descubrir, poblado en su mayoría por ingenieros eléctricos, según parece. Allí, la gente suele añadir la palabra "filtro" a sus herramientas, y han inventado grandes cosas como el algoritmo Widrow-Hoff, Mínimos cuadrados recursivos El Filtro Wiener El Filtro Kalman y probablemente otras cosas que aún no he descubierto. Al parecer, hacen sobre todo la tramitación "en línea", ya que se adapta mejor a sus necesidades.

Así que mi pregunta es, ¿tiene usted una visión global de todo esto? Tengo la impresión de que estas tres partes del mundo no se hablan demasiado entre sí. ¿Me equivoco? ¿Existe una gran teoría unificada para entender cómo $Y$ Se refiere a $X$ ? ¿Conoce algún recurso donde se puedan sentar las bases de esa teoría?

No sé si esta pregunta tiene realmente sentido, pero estoy un poco perdido entre todas esas teorías. Imagino que la respuesta a la pregunta "¿debo usar esto o aquello?" sería "depende de lo que quieras hacer (y de tus datos)". Sin embargo siento que esos tres mundos tratan de responder a la misma pregunta ( $y=f(x)$ ?) y así debería ser posible tener una visión más elevada de todo esto, y comprender en profundidad lo que hace que cada técnica sea particular.

4voto

Owen Fraser-Green Puntos 642

En lo que respecta a los lotes frente a los que están en línea, mi experiencia me dice que a veces se combinan ambos. Lo que quiero decir es que hay que dejar que el trabajo pesado, es decir, los cálculos intensivos relacionados con la formulación del modelo, se realicen fuera de línea y luego emplear procedimientos rápidos/adaptativos para utilizar estos modelos. Hemos comprobado que los "nuevos datos" pueden utilizarse de tres maneras: 1. simplemente para pronosticar; 2. para revisar los parámetros de un modelo conocido; y 3. para revisar los parámetros y posiblemente el modelo. Estos tres enfoques se han utilizado para el "análisis en vivo" y, por supuesto, el tiempo para completar uno de estos tres pasos depende tanto del software utilizado como del hardware disponible.

Ahora, en cuanto a su otro punto sobre cómo modelar y frente a x, prefiero utilizar una versión ampliada de la regresión (llamada Funciones de Transferencia o Modelos ARMAX) como base para extraer el impacto de la historia de y y los valores actuales y pasados de x. Es fundamental que uno valide los requisitos gaussianos e incorpore, según sea necesario, proxies para la estructura determinista omitida (a través de la detección de valores atípicos) y la estructura estocástica omitida a través del componente ARMA. Además, hay que asegurarse de que no se han utilizado demasiados datos (pruebas de constancia de los parámetros) y de que cualquier varianza de error no constante resultante de la varianza de error determinista/estocástica y/o la vinculación entre el valor esperado de y y la varianza de los residuos.

Ahora bien, históricamente ( o histéricamente si se quiere ) diferentes silos de pensamiento han intentado formular enfoques. Muchos de los modelos ad hoc utilizados por nuestros antepasados pueden mostrarse como subconjuntos de una función de transferencia, pero hay conjuntos de datos que pueden imaginarse y que desafiarían los supuestos de una función de transferencia. Aunque estos conjuntos de datos pueden existir, no debe suponerse que le afecten directamente, a menos que el análisis arroje esa conclusión.

Textos como el de Wei (Addison-Wessley) o el de Box-Jenkins deberían proporcionar una hoja de ruta razonable que apoye mis comentarios y le conduzca a otras "respuestas".

Por cierto, esta es una gran pregunta.

Además, si tiene algún dato que desee utilizar, podría demostrarle las distintas opciones que se indican. Por favor, publique sus datos en la web para que todos puedan verlos y utilizarlos en sus esfuerzos por relacionar "y con x".

2voto

Quant Guy Puntos 968

Breiman aborda esta cuestión en " Modelado estadístico: Dos Culturas ". Una primera respuesta a una excelente pregunta.

1voto

Boris Tsirelson Puntos 191

Sospecho que la respuesta a esta pregunta es algo parecido a "no hay almuerzo gratis". Quizá la razón por la que los estadísticos, los informáticos y los ingenieros eléctricos han desarrollado algoritmos diferentes es que están interesados en resolver distintos tipos de problemas.

-4voto

Adam Puntos 11

Yo diría que estos tres grupos que has indicado son efectivamente sólo dos grupos:

  • Estadísticas
  • Aprendizaje automático, inteligencia artificial y reconocimiento de patrones.

Todas las ramas relacionadas con el filtrado de señales se basan en dos aspectos: la extracción de características (wavelets, Gabor y Fourier), que pertenece al reconocimiento de patrones, y la transformación discreta de Fourier, que pertenece a las matemáticas duras. De hecho, el filtrado digital está más cerca de la ingeniería, ya que trata de resolver este problema de reconocimiento de patrones mediante algoritmos sencillos y de bajo coste computacional. Pero, en esencia, se trata de aprendizaje automático.

Además, el filtrado, las ondículas, Gabor y Fourier se utilizan ampliamente en el procesamiento de imágenes, siendo el núcleo de la visión artificial.

Existe una diferencia entre la estadística y el aprendizaje automático.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X