$$y = \beta_{0} + \beta_{1}x_{1} + \varepsilon_{0}$$
El lenguaje para describir los modelos de regresión, como la sencillísima regresión lineal especificada anteriormente, varía a menudo y esas variaciones suelen conllevar sutiles cambios de significado. Por ejemplo, la parte del modelo que se encuentra en el lado izquierdo de la ecuación puede denominarse (entre otras que desconozco) con connotaciones y denotaciones entre paréntesis:
- Variable dependiente (insinúa una dependencia causal)
- Variable prevista (implica que el modelo pronostica/realiza predicciones)
- Variable de respuesta (implica causalidad, o al menos secuencia temporal)
- Variable de resultado (implica causalidad)
La variación de la nomenclatura también es cierta en el lado derecho de la ecuación (el mismo descargo de responsabilidad de que soy un ignorante sobre otros términos):
- Variable independiente (implica prioridad causal, insinúa un diseño experimental)
- Variable predictora (implica previsiones, implica que la variable tiene asociada una estimación de parámetro no nula)
En el transcurso de las propuestas de investigación, o de la comunicación de la misma, he tenido ocasión no sólo de que me llamaran la atención sobre el uso de uno u otro término, sino de que posteriormente me llamaran la atención sobre el término por el que decidí sustituirlo. Aunque las personas que me han llamado estaban siendo pedantes (NB: soy un pedante profesional, así que lo comprendo), porque por supuesto todos entendimos lo que se comunicaba todavía me lo pregunto:
¿Existen términos de uso común para las variables de la izquierda y de la derecha en los modelos de regresión que sean agnósticos con respecto a (a) los usos externos del modelo, (b) las relaciones causales entre las variables y (c) los aspectos de los diseños de estudio utilizados para producir las propias variables?
NB: Soy no preguntar sobre las cuestiones importantes de la modelización adecuada y la interpretación correcta (es decir, me importa mucho la causalidad, el diseño del estudio, etc.), pero estoy más interesado en un lenguaje para hablar de esos modelos en general.
(Me doy cuenta de que "las variables de la izquierda" y "las variables de la derecha" podrían, supongo, interpretarse como una respuesta creíble, pero estos términos parecen torpes... tal vez esta sea una pregunta torpe.)
0 votos
No debería haber ninguna confusión al respecto.
1 votos
Creo que la respuesta corta es no. En mi opinión, esto es por una buena razón. En las instancias formales, el lenguaje utilizado para identificar las variables debe ser lo suficientemente matizado como para implicar una interpretación distinguida dentro de la aplicación/dominio previsto de los modelos (es decir, es muy importante saber si la causalidad está implícita o no en un modelo de regresión y el uso adecuado de la nomenclatura ayudará a ello).
2 votos
@ZacharyBlumenfeld (a) No respondas en los comentarios. :) (b) Y, sin embargo, hablamos de la "regresión" en sí misma en términos generales, sin recurrir al diseño del estudio, los dominios de conocimiento disciplinario, etc. (por ejemplo, mucha gente habla y escribe sobre el estimador de mínimos cuadrados sin invocar el diseño del estudio, la causalidad, etc.). Si disponemos de un lenguaje agnóstico a la aplicación para describir una amplia clase de esfuerzos estadísticos, ¿por qué no existe un lenguaje igualmente agnóstico para los componentes de dichos esfuerzos?
1 votos
No estoy seguro de si esto es digno de ser considerado como una respuesta, así que lo estoy publicando como un comentario: Tal vez haya alguna terminología procedente de las proyecciones (como $X(X'X)^{-1}X'y$ es una proyección de $y$ en el $X$ espacio)? Como proyectores y proyectoy (Me lo estoy inventando ahora porque no recuerdo los términos correspondientes). Esa terminología debería estar libre de sus (a), (b) y (c).
0 votos
En muchos casos ni siquiera es deseable una expresión agnóstica. Por ejemplo, hay muchas aplicaciones estadísticas en las que el usuario está probando claramente una teoría sobre la causalidad sin afirmar explícitamente que su modelo es causal (tal vez para escapar a la necesidad de cumplir los requisitos de una interpretación causal de los coeficientes de regresión). Tal vez el hecho de que nuestra jerga actual obligue a llamar a las cosas por su nombre sea una característica más que un error.
1 votos
@Kenji Estoy totalmente de acuerdo con la mayor parte de tu perspectiva. Sin embargo, no estoy de acuerdo en que sólo se pueda/deba hablar de ecuaciones de regresión en un caso aplicado: deberíamos tener un lenguaje que pueda hablar de variables de izquierda y derecha de todo modelos de regresión, por ejemplo, al examinar la aplicación de dichos métodos a nivel meta en todas las disciplinas.