Los datos aparecen tanto en la variable dependiente como en la independiente: ¿cómo se llama este error?

Question

Los datos aparecen tanto en la variable dependiente como en la independiente: ¿cómo se llama este error?

Preguntado el 9 de Octubre, 2021: Cuando se hizo la pregunta
73 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Quiero encontrar un nombre adecuado para el problema analítico que he identificado a continuación.

Una de las medidas más precisas de la disponibilidad de armas de fuego es la proporción de suicidios cometidos con armas de fuego, o FS/S (suicidios con armas de fuego / suicidios). La literatura está dividida en cuanto a si este proxy es apropiado cuando el resultado son suicidios: algunos piensan que está bien, aunque otros, incluyéndome a mí, creen que es malo porque los mismos datos aparecen tanto en las variables dependientes como independientes.

He elaborado un código R para mostrar que esto lleva a asociaciones espurias. Simulé suicidios con armas de fuego y sin armas de fuego utilizando la media y la desviación estándar de datos reales de la Carga Global de Enfermedades, luego utilicé una regresión de mínimos cuadrados ordinarios para probar si el FS/S simulado está asociado con suicidios con armas de fuego, sin armas de fuego y totales. Aunque los suicidios con armas de fuego y sin armas de fuego fueron generados independientemente, la proporción del total que es un suicidio con arma de fuego (FS/S) tiene una asociación altamente significativa (p < .001) tanto con los suicidios con armmas de fuego como con los totales. Estas asociaciones son obviamente el resultado de tener los mismos datos tanto en la variable independiente como en la dependiente.

Creo que esto podría ser un sesgo de collider, aunque algunos lo llaman "contaminaciones" o una "asociación mecánica", pero ninguno de estos términos me parece correcto. ¿Alguien puede ayudar?

library(tidyverse)

# generar datos simulados, analizar, poner en tabla; fuente de información: https://msalganik.wordpress.com/2017/01/21/making-sense-of-the-rlnorm-function-in-r/
firearm_mean <- 
  log(0.8 ^ 2 / sqrt(1.4 ^ 2 + 0.8 ^ 2))
firearm_sd <- 
  sqrt(log(1 + (1.4 ^ 2 / 0.8 ^ 2)))

nonfirearm_mean <- 
  log(9.6 ^ 2 / sqrt(6.9 ^ 2 + 9.6 ^ 2))
nonfirearm_sd <- 
  sqrt(log(1 + (6.9 ^ 2 / 9.6 ^ 2)))

sim <- 
  tibble(
    firearm_sim = 
      rlnorm(n = 200, 
             meanlog = firearm_mean, 
             sdlog = firearm_sd), 
    nonfirearm_sim = 
      plnorm(200, meanlog = nonfirearm_mean, 
             sdlog = nonfirearm_sd), 
    total_sim = firearm_sim + nonfirearm_sim, 
    fs_s = (firearm_sim / total_sim) * 100) %>% 
  pivot_longer(cols = contains("sim"), 
               names_to = "método", 
               values_to = "tasa") %>% 
  group_by(método) %>% 
  do(lm(log(tasa) ~ fs_s, 
        data = .) %>% 
       clean() %>% 
       filter(term != "(Intercept)")) %>% 
  transmute(método = 
              recode(método, 
                     "firearm_sim" = "Suicidio con armas de fuego", 
                     "nonfirearm_sim" = 
                       "Suicidio sin armas de fuego", 
                     "total_sim" = "Suicidio total"), 
            est = format(round(estimate, 3), nsmall = 3), 
            p = format(round(p_value, 3), nsmall = 3)) %>% 
  print()

Preguntado el 9 de Octubre, 2021 por Tyler Lane

Answer 1

1 Respuestas

Answer 2

1voto

Aaron Puntos 36

Cuando se analizan casos como este, es útil volver a los principios fundamentales y ver cómo se ve la ecuación del modelo una vez que la simplificas a sus variables más primitivas. Para fines ilustrativos, asumiré que estamos hablando de una regresión lineal. Las variables más primitivas en este caso son los conteos de suicidios utilizando armas de fuego y los que no utilizan armas de fuego, por lo que examinaremos cómo están relacionados bajo el modelo estipulado.

Para cada punto de datos $i$ (que representa un lugar / momento particular), supongamos que dejamos que $F_i$ denote el número de suicidios utilizando armas de fuego y $N_i$ denote el número de suicidios que no utilizan armas de fuego. Entonces, el número total de suicidios es $Y_i = F_i+N_i$ y la proporción que utiliza armas de fuego es $R_i = F_i/(F_i+N_i)$ . Si formamos un modelo de regresión lineal con $Y_i$ como la variable de respuesta y $R_i$ como una variable explicativa (además, digamos, $m$ otras variables explicativas) entonces la ecuación del modelo es:

$\begin{align} Y_i &= \beta_0 + \beta_* R_i + \sum_{k=1}^m \beta_k X_{k,i} + \varepsilon_i, \\[6pt] \end{align}$

lo cual es equivalente a:

$\begin{align} F_i + N_i &= \beta_0 + \beta_* \frac{F_i}{F_i + N_i} + \sum_{k=1}^m \beta_k X_{k,i} + \varepsilon_i. \\[6pt] \end{align}$

Reordenando esta ecuación nos da la siguiente forma cuadrática (en $N_i$ ):

$N_i^2 + (A_i + F_i) N_i + (A_i - \beta_*) F_i = 0 \quad \quad \quad \quad \quad A_i \equiv F_i - \beta_0 - \sum_{k=1}^m \beta_k X_{k,i} - \varepsilon_i.$

El discriminante de esta cuadrática es:

$\begin{align} \Delta &= (A_i + F_i)^2 - 4 (A_i - \beta_*) F_i \\[6pt] &= A_i^2 + 2 A_i F_i + F_i^2 - 4 A_i F_i + 4 \beta_* F_i \\[6pt] &= A_i^2 - 2 A_i F_i + F_i^2 + 4 \beta_* F_i \\[6pt] &= (A_i - F_i)^2 + 4 \beta_* F_i, \\[6pt] \end{align}$

y la solución (mayor) ocurre en:

$\begin{align} N_i &= \frac{1}{2} \Bigg[ (A_i + F_i) + \sqrt{(A_i - F_i)^2 + 4 \beta_* F_i} \Bigg]. \\[6pt] \end{align}$

Como puedes ver, este es un modelo bastante horrendo para relacionar $N_i$ y $F_i$ . Crea una relación extraña entre las cantidades y no es una forma de modelo particularmente plausible. Dado que esta relación está implícita en la forma original del modelo de regresión, sugiere que el modelo inicial está mal especificado.

En cuanto a nombrar este fenómeno, aunque es algo similar a sesgo de colisión, no estoy seguro si ese es el término correcto aquí. El problema esencial aquí es que incluso si $F_i$ y $N_i$ son independientes, habrá (casi siempre) alguna asociación estadística inducida entre $Y_i$ y $R_i$ a partir de las relaciones deterministas entre estas cantidades. El problema en cuestión también depende del objetivo del análisis. Si el objetivo es inferir sobre el efecto de la disponibilidad de armas de fuego en los suicidios totales (a través de su supuesto proxy) entonces se necesita una especificación adicional para la relación asumida que es la base para la inferencia del proxy.

Respondido el 9 de Octubre, 2021 por Aaron (36 Puntos )

Los datos aparecen tanto en la variable dependiente como en la independiente: ¿cómo se llama este error?

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Los datos aparecen tanto en la variable dependiente como en la independiente: ¿cómo se llama este error?

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: