De lecturas limitadas sobre el tema, mi entendimiento es que las entradas para la red neuronal serían los residuos de la ARIMA. La idea es que la serie temporal observada es la suma de un componente lineal y otro no lineal. El modelo ARIMA captura el componente lineal de la serie temporal y la RNA puede modelar cualquier componente no lineal restante.
El siguiente artículo lo explica con bastante claridad:
Zhang, G.P. (2003). Time series forecasting using a hybrid ARIMA and neural network model. Neuroinformática, 50, 159-175.
Una vez hecho esto, se vuelve a una red neuronal estándar. Para series temporales, una forma de entrenar la red es, para cada tiempo t utilizar $x_{t-1}$ a $x_{t-n}$ (con n definiendo una ventana razonable) como entradas y $x_t$ como salida. A continuación, la red neuronal puede utilizarse para predecir el valor con un período de antelación utilizando n observaciones en el pasado. Varias otras preguntas/respuestas en este sitio proporcionan material relevante: