10 votos

¿Por qué son "peligrosas" las ratios en los modelos estadísticos?

¿Por qué son "peligrosas" las ratios en los modelos estadísticos?

Un amigo me decía hoy que no es prudente utilizar el cociente de dos variables como variable en un modelo de regresión, y que es mejor utilizar estas mismas dos variables como variables en el mismo modelo de regresión. Sin embargo, cuando le pregunté a qué se debía esto, no obtuve respuesta.

He pasado algún tiempo intentando leer sobre este tema y he encontrado los siguientes puntos:

  • En el contexto de la probabilidad, los cocientes no siempre están definidos. Por ejemplo, la distribución de probabilidad de Cauchy es el cociente de dos distribuciones normales. La media de la Distribución de Cauchy no está definida.

  • Los ratios tienen el problema de la "correlación espuria". Por ejemplo, si se generan puntos aleatorios a partir de dos distribuciones normales independientes y, a continuación, se calcula el cociente de cada par, se observa que el cociente puede mostrar una correlación estadística, aunque los datos procedan de distribuciones normales independientes y aleatorias.

  • Los cocientes pueden convertirse en números muy grandes y corren el riesgo de dividirse por cero.

  • Supuestamente, si un gráfico de la relación entre dos variables no es una línea diagonal (a 45 grados) y no pasa por el origen - la relación no tiene sentido (no entiendo por qué).

Éstos son algunos de los puntos que he identificado para explicar por qué los cocientes pueden ser "peligrosos" en la modelización estadística, y que sería mejor utilizar las variables del numerador y el denominador del cociente como variables para el modelo de regresión (o cualquier modelo estadístico), pero ¿hay otras razones principales por las que pueda considerarse peligroso utilizar cocientes en los modelos estadísticos?

Gracias.

Referencias:

8voto

Aaron Puntos 36

La parte "peligrosa" del ratio es el denominador invertido

Si en un modelo de regresión se tiene un término de razón que incluye dos variables explicativas, se puede escribir como término de interacción :

$$\frac{x_{1,i}}{x_{2,i}} = x_{1,i} \times \frac{1}{x_{2,i}}.$$

Ahora bien, no hay nada intrínsecamente problemático o peligroso en tener un término de interacción que incluya la variable explicativa $x_{1,i}$ y, de hecho, tenemos términos de interacción como éste en muchos modelos de regresión. Sin embargo, podría decirse que es bastante "peligroso" tener un término de modelo que invierta la variable explicativa $x_{2,i}$ --- si este valor es pequeño para algunos puntos de datos, entonces este término explicativo "explotará" en esos puntos de datos, lo que generalmente hará que tengan grandes valores positivos o negativos dando lugar a altos puntos de apalancamiento en la regresión (es decir, afectarán mucho al ajuste OLS).

Cuidado con pintar esta situación con una brocha demasiado ancha, porque este tipo de términos no siempre son peligrosos. De hecho, si la variable explicativa $x_{2,i}$ ya era "explosiva" (digamos, porque ya era la inversa de una variable aleatoria estable con una media cercana a cero), entonces la inversión puede hacerla realmente más estable en lugar de más explosivo. Como regla general, si invertimos una variable aleatoria con una curtosis relativamente baja, y una media cercana a cero, tenderemos a obtener una variable aleatoria con alta curtosis (es decir, alta probabilidad de valores extremos), y viceversa .

Aquí nos hemos concentrado en el término que implica una variable explicativa invertida. Por supuesto, es posible que la interacción con $x_{1,i}$ podría agravar el carácter explosivo de este término, sobre todo si los valores de $x_{1,i}$ tienden a ir con valores pequeños de $x_{2,i}$ . Pero como puede ver, es realmente el inversión esa es la parte "peligrosa". Que el término ratio sea o no "peligroso" se reduce en gran medida a si el término invertido $1/x_{2,i}$ es "peligroso" por derecho propio. Si $x_{2,i}$ tiene algunos valores pequeños, entonces este término será bastante explosivo y producirá puntos de datos de alto apalancamiento.

3voto

Hoogendijk Puntos 45

En realidad, es muy sencillo por qué. Supongamos que calculas el CV varias veces a partir del bootstrap. El CV es $\frac{SD}{Mean}$ . Supongamos ahora que el valor medio no se aproxima a cero, sino que podría ser, digamos, uno entre un millón de veces. Lo que ocurre entonces es que podríamos obtener un CV que podría ser -1000 veces la mediana de los otros valores de CV. Así que el problema con los cocientes de variables aleatorias es que cuantos más datos tengamos, más salvaje puede ser el valor medio debido al problema de dividir por casi cero en el denominador.

EDIT: Para un ejemplo más exacto que sólo estoy resumiendo crudamente aquí ver: Brody JP, Williams BA, Wold BJ, Quake SR (2002) Significance and statistical errors in the analysis of DNA microarray data. Proc Natl Acad Sci 99(20):12975-12978 .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X