No hay nada inherentemente malo en esto!
Permita que $I(x_i)$ sea un indicador de $x$ siendo mayor que cero. Por supuesto, podrías correr la regresión:
$$ y_i = b_0 + b_1 x_i + b_2 I(x_i) + \epsilon_i $$
Y esto sería algo sensato de hacer si tu función de expectativa condicional tuviera una discontinuidad de algún tamaño desconocido en cero. Por ejemplo:
Claro que va a haber cierta correlación entre $x$ e $I(x)$, pero esa es parte de la razón por la que corres una regresión con múltiples regresores en lugar de estimar todo por separado. Si están demasiado correlacionados, entonces tienes un problema, pero creo que probablemente estarás bien.
Ejemplo: estimando la respuesta del mercado de valores a una sorpresa de ganancias
Permite que $y_{it}$ sea el retorno anormal de la firma $i$ en el tiempo $t$. Permite que $x_{it}$ sea la sorpresa de ganancias. Típicamente correrías algo del tipo:
$$ y_{it} = b_0 + b_1 x_{it} + b_2 I(x_{it}) + \epsilon_{it} $$
porque hay una penalización considerable por fallar en tus ganancias previstas! Hay una gran no-linealidad en cero.
Apéndice: Definición de una recesión
Hay dos fuentes de datos comúnmente utilizadas para lo que es una recesión:
- (Informal) Dos trimestres consecutivos de declive del PIB.
- (Formal) El juicio experto del comité de fechas de recesión del NBER.
El crecimiento del PIB y un indicador de recesión no son colineales. Un problema en toda la macroeconomía es que tienes datos limitados en relación a todo lo que te gustaría estimar. Si tienes una muestra de veinte años, solo tienes DOS recesiones! Sería como si solo tuvieras dos sujetos que recibieron tratamiento.