39 votos

¿Cómo hacer una regresión logística en R cuando el resultado es fraccionario (una proporción de dos cuentas)?

Estoy revisando un trabajo que tiene el siguiente experimento biológico. Se utiliza un dispositivo para exponer las células a cantidades variables de tensión de cizallamiento de fluidos. A medida que se aplica una mayor tensión de cizallamiento a las células, más de ellas comienzan a desprenderse del sustrato. En cada nivel de tensión de cizallamiento, se cuentan las células que permanecen adheridas, y como se conoce el número total de células que estaban adheridas al principio, se puede calcular una fracción de adhesión (o desprendimiento).

Si se traza la fracción adherente frente a la tensión de cizallamiento, el resultado es una curva logística. En teoría, cada celda individual es una única observación, pero obviamente hay miles o decenas de miles de celdas, por lo que el conjunto de datos sería gigantesco, si se estableciera de la manera habitual (con cada fila siendo una observación).

Así que, naturalmente, mi pregunta (como se indica en el título) debería tener sentido ahora. ¿Cómo hacemos una regresión logística utilizando el resultado fraccionario como VD? ¿Hay alguna transformación automática que se pueda hacer en glm?

En la misma línea, si hubiera potencialmente 3 o más medidas (fraccionadas), ¿cómo se haría esto para una regresión logística multinomial?

49voto

Eero Puntos 1612

El glm función en R permite 3 formas de especificar la fórmula de un modelo de regresión logística.

Lo más habitual es que cada fila del marco de datos represente una única observación y que la variable de respuesta sea 0 o 1 (o un factor con 2 niveles, u otra varibale con sólo 2 valores únicos).

Otra opción es utilizar una matriz de 2 columnas como variable de respuesta, siendo la primera columna los recuentos de "éxitos" y la segunda los recuentos de "fracasos".

También puede especificar la respuesta como una proporción entre 0 y 1, y luego especificar otra columna como el "peso" que da el número total del que proviene la proporción (así, una respuesta de 0,3 y un peso de 10 es lo mismo que 3 "éxitos" y 7 "fracasos").

Cualquiera de las dos últimas formas se ajustaría a lo que estás tratando de hacer, la última parece la más directa para la forma en que describes tus datos.

12voto

Psycho Bob Puntos 661

Para empezar, si tiene una variable dependiente que es una proporción, puede utilizar la Regresión Beta. Esto no se extiende (con mis limitados conocimientos) a las proporciones múltiples.

Para una visión general de la regresión beta y una implementación en R, consulte betareg .

5voto

cbeleites Puntos 12461

He estado usando nnet::multinom (el paquete nnet forma parte del MASS) para un propósito similar, acepta una entrada continua en [0, 1].

Si necesita una referencia: C. Beleites et.al.: Clasificación espectroscópica Raman de tejidos de astrocitoma: uso de información de referencia blanda. Anal Bioanal Chem, 2011, Vol. 400(9), pp. 2801-2816

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X