Tengo los datos de las series temporales de un montón de acciones de sus grupos específicos (índices de mercado), y me gustaría realizar algunas pruebas cuantitativas en ellos como un grupo. Digamos, por ejemplo, que tengo 30 acciones durante un período de 10 años con información diaria. Está almacenada como una celda (en Matlab), así que básicamente es una matriz con 30 columnas y 2520 (10 x 252 días de negociación en un año) filas. Digamos que quiero encontrar la matriz de correlación, es decir, la correlación entre cada par de acciones. Para ello se necesita una matriz regular (rectangular), pero mi problema es que, digamos, 3 de las acciones aparecieron hace sólo 8, 6 y 5 años, por lo que sus columnas tienen 2, 4 y 5 años menos que las demás, respectivamente.
Tengo dos opciones para obtener mi matriz rectangular
- La eliminación de todos los datos que se remontan más allá de la "fecha de inicio" más antigua de una acción, lo que significa perder 5 años de datos en mi ejemplo, no es realmente una opción.
- rellenar, "rellenar", las columnas más cortas para que tengan la misma longitud que las más largas.
Ya he eliminado uno o dos valores por ser realmente jóvenes, y ahora quiero rellenar los pocos valores restantes que tienen series temporales más cortas.
Mi pregunta es: ¿hasta qué punto se verán afectados mis resultados si relleno esas columnas y realizo los análisis (correlación, etc.)?
¿Serían insignificantes los errores? ¿Puedo minimizarlos con mi elección de lo que los relleno? He considerado usar 'NaN' en Matlab, ya que funciona de forma neutral en muchos otros análisis, pero aquí daría un error. Mi siguiente opción sería rellenar con cero, o con el valor medio de esa columna (es decir, el precio medio de las acciones en la serie temporal).
¿Alguna otra idea, o el acolchado es un completo no-no?
Gracias de antemano