4 votos

Uso de la ecuación de regresión cuando no se conocen todos los valores de las variables independientes

Se le da una ecuación de regresión logística que predice la probabilidad de padecer una enfermedad en función de la presencia o no de tres factores de riesgo. Para cualquier paciente cuya probabilidad de enfermedad quiera predecir, puede averiguar si presenta o no los dos primeros factores de riesgo, pero no tiene información sobre el tercero. En una situación como ésta, ¿hay alguna forma razonable de utilizar la ecuación de regresión?

Por supuesto, no se puede simplemente establecer el tercer término igual a cero, ya que eso supone que el paciente hace pas tienen el factor de riesgo. ¿Hay alguna otra opción? Digamos que usted sabe que la prevalencia del tercer factor de riesgo en la población del paciente es del 25%. ¿Podría establecer su tercera variable independiente igual a 0,25 y luego utilizar la ecuación para estimar la probabilidad de enfermedad del paciente?

0 votos

Para aclarar mi pregunta, permítanme añadir que en la situación que estoy describiendo, no tengo información sobre el tercer factor de riesgo de cualquier pacientes de mi población. No se trata de que tenga la información de unos pacientes pero no de otros.

3voto

Ashok Puntos 108

La respuesta anterior ya es muy buena, pero quiero aclarar algo sobre tu pregunta. No queda claro en tu pregunta si tienes información sobre el tercer factor de riesgo. La respuesta de Benoit sólo funciona si se dispone de los datos de algunos encuestados y faltan los de otros. Si no dispone de información sobre la variable para ninguno de sus pacientes, no sirve de nada imputar los datos que faltan. Probablemente ya lo sepa, pero quiero asegurarme de que las bases están cubiertas.

Otra opción para tratar los datos que faltan si tiene menos de un 5% de pérdidas y los datos que faltan son aleatorios, es realizar el análisis sólo en los casos sin datos que faltan, lo que se conoce como eliminación de la lista o análisis de casos completos.

0 votos

Gracias por señalarlo. Me refería a que no tengo ningún dato sobre la tercera variable de mis pacientes. He añadido un comentario a mi pregunta principal anterior para aclarar.

3voto

Shift Puntos 310

Solución 1: El valor omitido se establece como categoría especial

Esto se adapta especialmente si la variable ya es categórica: como "fuma", "no fuma". Se añade la categoría "respuesta omitida". Esto ocurre cuando considera que un valor omitido es informativo y desea explotar esta información: algo que desea analizar.

Solución 2: imputación simple (no recomendado)

Los valores se rellenan automáticamente. Prácticamente se sustituyen por:

  • la media en función de las demás variables conocidas si son continuas
  • la moda dadas las otras variables conocidas si son categóricas

Esto se conoce como "regresión" en https://en.wikipedia.org/wiki/Imputation_(statistics)#Imputación_única . Esto puede crear un sesgo y no se recomienda hoy en día.

Solución 3: imputación múltiple

Los valores también se rellenan automáticamente. El método considera que el valor que falta tiene una distribución dada por las otras variables y simula varios conjuntos de datos según esta distribución. Por ejemplo, si la variable puede tener los valores A o B, y para una línea del conjunto de datos la probabilidad de A/B (dadas las demás variables) es, digamos, del 30%/70%, se generan conjuntos de datos eligiendo uno de A y B con estas probabilidades. Esto requiere un análisis especial que la mayoría de los programas de estadística implementan. Puede obtener más información aquí: https://en.wikipedia.org/wiki/Imputation_(statistics)#Imputación_múltiple .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X