53 votos

¿Por qué necesitamos regresión multivariada (en lugar de un montón de regresiones univariadas)?

Acabo de hojear este maravilloso libro: Análisis estadístico multivariado aplicado de Johnson y Wichern. La ironía es que aún no entiendo la motivación para usar modelos de regresión multivariados en lugar de modelos de regresión univariados separados. Leí publicaciones de stats.statexchange 1 y 2 que explican (a) la diferencia entre regresión múltiple y regresión multivariada y (b) la interpretación de los resultados de la regresión multivariada, pero no logro comprender el uso de modelos estadísticos multivariados a pesar de toda la información que encuentro en línea sobre ellos.

Mis preguntas son:

  1. ¿Por qué necesitamos regresión multivariada? ¿Cuál es la ventaja de considerar los resultados simultáneamente en lugar de individualmente, para sacar inferencias?
  2. ¿Cuándo utilizar modelos multivariados y cuándo utilizar múltiples modelos univariados (para múltiples resultados)?
  3. Tomemos un ejemplo dado en el sitio de UCLA con tres resultados: locus de control, autoconcepto y motivación. En relación con 1. y 2., ¿podemos comparar el análisis cuando realizamos tres regresiones múltiples univariadas versus una regresión múltiple multivariada? ¿Cómo justificar una sobre la otra?
  4. No he encontrado muchos artículos académicos que utilicen modelos estadísticos multivariados. ¿Es esto debido a la suposición de normalidad multivariada, la complejidad del ajuste/interpretación del modelo u alguna otra razón específica?

23 votos

Separar modelos univariados ignorar correlaciones.

4 votos

Sí, hay muchos fenómenos en el mundo que no se pueden modelar con variables aleatorias independientes.

4 votos

@jwimberley ¿Podrías ampliar las consecuencias de ignorar estas correlaciones en una respuesta?

31voto

Harald Puntos 24

Asegúrate de leer el ejemplo completo en el sitio de UCLA que has enlazado.

Referente a 1:
Usar un modelo multivariado te ayuda (formalmente, inferencialmente) a comparar los coeficientes entre resultados.
En el ejemplo enlazado, utilizan el modelo multivariado para probar si el coeficiente de write es significativamente diferente para el resultado de locus_of_control en comparación con el resultado de self_concept. No soy psicólogo, pero presumiblemente es interesante preguntar si tu habilidad para escribir afecta/predice variables psicológicas de distintas maneras. (O, si no creemos en la hipótesis nula, sigue siendo interesante preguntar si has recopilado suficientes datos para demostrar de manera convincente que los efectos realmente difieren).
Si realizaras análisis univariados separados, sería más difícil comparar el coeficiente de write entre los dos modelos. Ambas estimaciones vendrían del mismo conjunto de datos, por lo que estarían correlacionadas. El modelo multivariado tiene en cuenta esta correlación.

También, referente a 4:
Hay _algunos modelos multivariados muy comúnmente utilizados, como Análisis de Varianza de Medidas Repetidas. Con un diseño de estudio apropiado, imagina que le das a cada paciente varios fármacos y registras la salud de cada paciente después de cada fármaco. O imagina que mides el mismo resultado a lo largo del tiempo, como con datos longitudinales, por ejemplo, las alturas de los niños a lo largo del tiempo. Entonces tendrás múltiples resultados para cada unidad (incluso cuando sean simplemente repeticiones de una medición "igual" tipo). Probablemente querrás hacer al menos algunas comparaciones simples: comparando los efectos de la droga A vs la droga B, o los efectos promedio de las drogas A y B vs placebo. Para esto, el Análisis de Varianza de Medidas Repetidas es un modelo/análisis estadístico multivariado apropiado._

3 votos

Diste una gran respuesta. Definitivamente era consciente de que hay un mundo de otros ejemplos y argumentos que podrían ser hechos. Me gusta que hayas tomado información del enlace de UCLA para mostrarle al OP. Francamente, al principio me sentí ofendido por la pregunta, pero decidí proporcionar una respuesta cuando me di cuenta de que el OP sinceramente quería escuchar buenos argumentos y no estaba tratando de ignorar los métodos multivariables. Mi elección fue mostrar ejemplos donde ignorar la correlación tuvo resultados realmente devastadores y fatales.

0 votos

Gracias por la excelente respuesta, @civilstat. En el punto 1, si ejecutamos dos modelos univariados independientes, has mencionado que el coeficiente de la variable de entrada (por ejemplo, el coeficiente de write) estaría correlacionado y el modelo multivariado tiene en cuenta lo mismo. Aquí es donde me gustaría obtener más comprensión. locus_of_control y self_concept pueden fusionarse en una sola medida utilizando análisis factorial u otras técnicas y la medida resultante puede ser modelada, si hay una motivación adecuada. Si ambas medidas dos fenómenos psicológicos diferentes, ¿qué ganamos al modelarlas simultáneamente?

0 votos

En cuanto a la justificación anterior para el punto 4, aunque el ANOVA de medidas repetidas se expresa como un modelo multivariado en muchos dominios/escuelas, ¿qué hay del MANOVA de medidas repetidas? Aunque las 'medidas repetidas' son un requisito para capturar la interdependencia entre tuplas/observaciones, ¿qué pasa con las interdependencias entre los resultados?

12voto

mat_geek Puntos 1367

Piensa en todas las conclusiones falsas y a veces peligrosas que provienen simplemente de multiplicar probabilidades, pensando que los eventos son independientes. Debido a todas las salvaguardias redundantes incorporadas en nuestras plantas de energía nuclear, los expertos que utilizan el supuesto de independencia nos dijeron que la posibilidad de un accidente nuclear importante era infinitesimal. Pero como vimos en Three Mile Island, los seres humanos cometen errores correlacionados especialmente cuando están en pánico debido a un error inicial que puede complicarse rápidamente. Puede ser difícil construir un modelo multivariado realista que caracterice el comportamiento humano, pero darse cuenta del efecto de un modelo horrible (errores independientes) es claro.

Existen muchos otros ejemplos posibles. Tomaré el desastre del transbordador Challenger como otro ejemplo posible. La pregunta era si lanzar o no bajo condiciones de baja temperatura. Había algunos datos que sugerían que las juntas tóricas podían fallar a bajas temperaturas. Pero no había mucha información de misiones anteriores para dejar claro cuál era el riesgo. NASA siempre ha estado preocupada por la seguridad de los astronautas y se diseñaron muchas redundancias en la nave espacial y los vehículos de lanzamiento para hacer que las misiones fueran seguras.

Antes de 1986, hubo algunas fallas y cerca de fallas del sistema probablemente debido a no identificar todos los posibles modos de falla (una tarea difícil). Modelar la confiabilidad es un trabajo difícil. Pero esa es otra historia. En el caso del transbordador, el fabricante de las juntas tóricas (Morton Thiokol) había realizado algunas pruebas de las juntas tóricas que indicaban la posibilidad de fallas a bajas temperaturas.

Pero los datos de un número limitado de misiones mostraron alguna relación entre la temperatura y la falla, pero debido a que la redundancia llevó a algunos administradores a pensar que las fallas múltiples en las juntas tóricas no sucederían, presionaron a NASA para lanzar.

Por supuesto, hubo muchos otros factores que llevaron a la decisión. ¿Recuerdan cómo el Presidente Reagan estaba tan ansioso por enviar a una maestra al espacio para demostrar que ahora era lo suficientemente seguro como para que personas comunes que no fueran astronautas pudieran viajar de manera segura en el transbordador? Así que la presión política fue otro factor importante que afectó la decisión. En este caso, con suficientes datos y un modelo multivariado, el riesgo podría haber sido mejor demostrado. NASA solía inclinarse por la precaución. En este caso, posponer el lanzamiento por unos días hasta que el clima se calentara en Florida habría sido prudente.

Las comisiones posteriores al desastre, ingenieros, científicos y estadísticos realizaron un gran análisis y se publicaron documentos. Sus opiniones pueden diferir de la mía. Edward Tufte mostró en una de sus series de libros sobre gráficos que unos buenos gráficos podrían haber sido más convincentes. Pero al final, a pesar de que todos estos análisis tienen mérito, creo que la política habría salido ganando.

La moraleja de estas historias no es que estos desastres motivaron el uso de métodos multivariados, sino que los malos análisis que ignoraron la dependencia a veces conducen a subestimaciones graves del riesgo. Esto puede llevar a la confianza excesiva que puede ser peligrosa. Como jwimberley señaló en el primer comentario de este hilo "Los modelos univariados separados ignoran correlaciones".

1 votos

Gracias por tu maravilloso ejemplo, @MichaelChernick. La suposición de independencia es una preocupación, entiendo. Estoy más interesado en la interrelación entre los resultados y la necesidad de modelarlos simultáneamente.

0 votos

Permitamos tomar el ejemplo del desastre del transbordador Challenger en sí mismo. Aquí el resultado univariado es binario: si es seguro o no lanzar el transbordador espacial. Considere el modelo intentando hacer muchas cosas, como predecir la seguridad, medir desviaciones de trayectoria y predecir la presión en el interior del transbordador. Un enfoque podría ser construir modelos separados para cada uno de ellos, y el otro podría ser considerar un modelo "todos-en-uno" que no solo intenta capturar los efectos de las entradas (temperatura, humedad, etc.), sino que también verifica los efectos simultáneos en los resultados.

1 votos

Gracias @MichaelChernick. No estoy seguro de entender completamente tus argumentos. Entiendo que muchos de nosotros utilizamos regresión univariada y multivariada para regresión lineal simple con una sola variable de entrada y más de una variable de entrada (donde se examinan efectos simultáneos de más de una entrada en cuyo caso). Pero he formulado esta pregunta para modelos con un resultado (univariado) o más de un resultado (multivariado). Si el caso del Challenger no alude a un caso de uso de resultado multivariado, ¿puedes aludir a uno válido? Gracias por continuar la discusión.

8voto

Loffen Puntos 163

Considera esta cita de la pág. 36 del libro de Darcy Olsen The Right to Try [1]:

Pero unas dieciséis semanas después de que empezaran las infusiones de [eteplirsen], Jenn comenzó a notar cambios en [su hijo] Max. "El niño dejó de querer usar su silla de ruedas", dice ella. Unas semanas después, él estaba pidiendo jugar afuera, algo que no había hecho en años. Luego Max comenzó a recuperar sus habilidades motoras finas. Él pudo volver a abrir contenedores, una habilidad que había perdido a medida que su distrofia muscular de Duchenne avanzaba.

La madre de Max, Jenn, está construyendo una imagen coherente de su mejora, al reunir evidencia de múltiples resultados que individualmente podrían ser descartados como 'ruido', pero que juntos son bastante convincentes. (Este principio de síntesis de evidencia es en parte la razón por la cual los pediatras nunca descartan la interpretación instintiva de un padre de que "algo está mal con mi hijo". Los padres tienen acceso a un análisis longitudinal 'multivariado' de sus hijos mucho más rico que el análisis transversal 'oligovariado' accesible para un clínico durante un único encuentro clínico breve.)

Abs­trayéndonos del caso particular de eteplirsen, considera una situación hipotética donde solo una pequeña fracción de los sujetos del estudio se beneficiaban de una terapia experimental, digamos debido a algún factor genético compartido aún desconocido para la ciencia. Es bastante posible que para esos pocos sujetos, un argumento estadístico correspondiente a la historia multivariada de Jenn podría identificarlos claramente como 'respondedores', mientras que múltiples análisis separados de las señales débiles contenidas en los resultados individuales resultarían cada uno en $p>0.05$, llevando a una conclusión acumulativa 'nula'.

Lograr tal síntesis de evidencia es la razón principal para el análisis de resultados multivariados en ensayos clínicos. Métodos Estadísticos en Investigación Médica tuvo un número especial hace unos años [2] dedicado al 'Modelado Conjunto' de resultados multivariados.

  1. Olsen, Darcy. The Right to Try: Cómo el Gobierno Federal Impide a los Estadounidenses Obtener los Tratamientos que Necesitan para Salvar sus Vidas. Primera edición. New York, NY: Harper, un sello de HarperCollins Publishers, 2015.
  2. Rizopoulos, Dimitris, y Emmanuel Lesaffre. “Introducción al Número Especial sobre Técnicas de Modelado Conjunto.” Métodos Estadísticos en Investigación Médica 23, no. 1 (1 de febrero de 2014): 3–10. doi:10.1177/0962280212445800.

7voto

Loren Pechtel Puntos 2212

Hagamos una simple analogía, ya que eso es todo lo que realmente puedo intentar contribuir. En lugar de regresión univariante versus regresión multivariante, consideremos distribuciones univariante (marginal) versus multivariante (conjunta). Supongamos que tengo los siguientes datos y quiero encontrar "valores atípicos". Como primer enfoque, podría usar las dos distribuciones marginales ("univariante") y trazar líneas en el 2.5% inferior y 2.5% superior de cada una de forma independiente. Los puntos que caen fuera de las líneas resultantes se consideran valores atípicos.

Pero dos cosas: 1) ¿Qué pensamos de los puntos que están fuera de las líneas para un eje pero dentro de las líneas para el otro eje? ¿Son "valores atípicos parciales" o algo así? Y 2) la caja resultante no parece estar haciendo realmente lo que queremos. La razón, por supuesto, es que las dos variables están correlacionadas, y lo que intuitivamente queremos es encontrar valores atípicos que sean inusuales considerando las variables en combinación.

En este caso, miramos la distribución conjunta, y he codificado por colores los puntos en función de si su distancia de Mahalanobis desde el centro está dentro del 5% superior o no. Los puntos negros parecen mucho más como valores atípicos, incluso aunque algunos valores atípicos se encuentran dentro de ambos conjuntos de líneas verdes y algunos no-valores atípicos (rojos) están fuera de ambos conjuntos de líneas verdes.

En ambos casos, estamos delimitando el 95% versus el 5%, pero la segunda técnica tiene en cuenta la distribución conjunta. Creo que la regresión multivariada es similar a esto, donde se sustituye "regresión" por "distribución". No lo entiendo del todo, y no he tenido la necesidad (que yo entienda) de hacer regresión multivariada por mí mismo, pero así es como lo pienso.

[La analogía tiene problemas: la distancia de Mahalanobis reduce dos variables a un solo número, algo así como la forma en que una regresión univariante toma un conjunto de variables independientes y, con las técnicas adecuadas, puede tener en cuenta las covarianzas entre las variables independientes, y resulta en una variable dependiente única, mientras que una regresión multivariada resulta en múltiples variables dependientes. Por lo tanto, es un poco al revés, pero esperemos que lo suficiente para dar alguna intuición.]

enter image description here

2 votos

Me gusta esto. Usaría los puntos suspensivos externos para definir los valores atípicos. Según veo tu ilustración, un punto puede estar alejado de la media en la dirección x o y pero aún así estar dentro de una elipse que no está lejos de la línea de regresión.

2voto

phaeton616 Puntos 81

1) La naturaleza no siempre es simple. De hecho, la mayoría de los fenómenos que estudiamos dependen de múltiples variables, y de una manera compleja. Un modelo inferencial basado en una variable a la vez probablemente tendrá un alto sesgo.

2) Los modelos univariados son los más simples que puedes construir, por definición. Está bien si estás investigando un problema por primera vez y quieres entender su característica única y más esencial. Pero si deseas una comprensión más profunda, una comprensión que realmente puedas aprovechar porque confías en lo que estás haciendo, deberías usar análisis multivariados. Y entre los multivariados, deberías preferir aquellos que entiendan los patrones de correlación, si te importa la precisión del modelo.

3) Lo siento, no hay tiempo para leer este.

4) Los documentos que utilizan técnicas multivariadas son muy comunes en estos días, incluso extremadamente comunes en algunos campos. En los experimentos del CERN utilizando los datos del Gran Colisionador de Hadrones (por citar un ejemplo de la física de partículas) más de la mitad de los cientos de documentos publicados cada año utilizan técnicas multivariadas de una forma u otra

https://inspirehep.net/search?ln=en&ln=en&p=find+cn+cms+&of=hb&action_search=Search&sf=earliestdate&so=d&rm=&rg=25&sc=0

1 votos

Creo que quieres decir que un modelo univariante es aquel con solo una entrada y un modelo multivariante es aquel con múltiples entradas. Mi pregunta era sobre múltiples resultados analizados simultáneamente en un modelo.

2 votos

Usted mezcló la regresión multivariada/univariada con la regresión múltiple/simple.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X