6 votos

¿Razones en cuanto a por qué estándar que regresión múltiple no sería apropiada?

Un investigador es la investigación de los efectos de diferentes dosis de veneno en dos variedades comunes de las cucarachas. Ella administra seis diferentes rangos de el veneno es la dosis a 20 cucarachas de cada especie, y los registros de cuántas cucarachas mueren. Los datos (números de cucarachas muertas de 20) que aparecen en la siguiente tabla:

enter image description here El investigador propone para calcular la proporción de cucarachas muertas por cada dosis de veneno y de la especie, y el modelo de esta proporción en términos de dosis (una variable cuantitativa) y especies (una variable cualitativa) con un estándar de regresión múltiple. La variable de respuesta será de proporción, mientras que dosis y especies serán las variables predictoras.

enter image description here

5voto

jldugger Puntos 7490

Lo realmente interesante de esta pregunta es que la dosis se registran como los intervalos y los intervalos span partes considerables de la gama total. Esto significa que debemos estar preocupados de que los procedimientos estándar, como la regresión logística, que representan las dosis individuales de los números podría ser engañoso.

Por medio de visualizaciones, yo le llevará paso a paso a través de un simple (y de ninguna manera exhaustivo) de análisis hasta llegar a la final complejo, pero muy esclarecedor gráfico. A su vez podría ser mejor utilizado por rozando abajo de las parcelas, a continuación, copia de seguridad a estudiar algo que capta su interés.


Figure 1: raw data shown as intervals.

Veamos esto más de cerca. Supongamos que una determinada dosis $x$ (no un rango, una dosis real) está asociado con una probabilidad de $p(x, s)$ que cualquier cucaracha de especies $s$ va a morir en estas condiciones experimentales. Suponga que la cucaracha muertes son (estadísticamente) independiente. (Esta suposición, en principio, puede ser probado; por ahora, esto es necesario debido a que la información relevante para la prueba no está disponible.) Este es un Binomio Modelo Lineal Generalizado (aunque sin una determinada función de enlace--todavía).

Estos supuestos pueden (y deben) ser escrito matemáticamente, a fin de determinar un procedimiento adecuado para la estimación de $p(x,s)$. Considere la posibilidad de una cucaracha de especies $s$ que se administró una dosis $x$ $a$ $b$ unidades. El indicador de su muerte es una variable aleatoria tomando el valor de $1$ con una probabilidad de $p(x,s)$. El número total de muertes de $20$ de esos individuos es la suma de $20$ tales variables, donde a $x$ oscila entre los $a$ $b$ como se determina en el experimento. Si $x$ eran fijos, que total, por tanto, tienen un Binomio$(20, p(x,s))$ distribución. Pero si $p(x,s)$ varía durante ese intervalo de $(a,b]$, el total tiene una distribución diferente.

Para progresar, tenemos que especificar cómo se $p$ puede variar con $x$. De una norma, de manera sencilla es con una "logística función de enlace", donde las probabilidades de registro de la muerte se asume como una función lineal de la dosis. Equivalentemente, supongamos

$$p(x,s) = 1 - \frac{1}{1 + \exp{\left(\alpha(s) + \beta(s)x\right)}}$$

para los números de $\alpha(s)$ $\beta(s)$ que podrían diferir entre las dos especies. (Esto le da dos modelos de la competencia: al $\alpha$ o $\beta$ difieren entre las especies, el modelo tiene una "interacción".)

En el gráfico siguiente, $x$ valores fueron asignados al azar (de forma independiente) dentro de cada intervalo (limitación de los "20+" intervalo para el rango de 20-25) y el modelo sin interacción se ajuste. Las curvas de la parcela $p(x,s)$$s=1,2$.

Figure 2: One fit superimposed on the plot of the interval data

La incertidumbre derivada de la grabación de cada dosis sólo con su intervalo puede ser evaluado mediante la repetición de esta selección aleatoria de las posibles dosis dentro de los intervalos. Para la siguiente figura, 100 modelos se ajustan. La dosis dentro de cada intervalo fueron elegidos de acuerdo a los diversos escala Beta distribuciones con aleatoriamente seleccionados los parámetros, algunos de los parámetro de las opciones podría provocar que más de la dosis para estar cerca de uno de los extremos de un intervalo o de otra. Para cada iteración de la misma distribución Beta, de tamaño adecuado, se utilizó en cada intervalo de tiempo: por lo tanto, la dosis puede ser elegido constantemente cerca de los extremos o cerca de los extremos de los intervalos.

Figure 3: 100 fits superimposed on the interval data

Para combinar los dos evaluaciones de incertidumbre, el error de predicción de la estimación en el modelo y en la variación debida a la incierta ubicación de la dosis dentro de cada intervalo--la última figura que se superpone a todos los 100 error de "polígonos" (como se muestra en la segunda figura de arriba).

Figure 4: 100 error polygons transparently superimposed on the data

La mayoría de los datos encajan muy bien dentro de estos visual sobres. La única excepción es la observación de ninguna de las muertes de Especies 1 (roja) en una dosis de 0-1 unidades: su intervalo, representado en la esquina inferior izquierda, que parece ser un poco baja.


Voy a terminar diciendo un poco más acerca de la "interacción". Para todos los 100 conjuntos de datos, tanto de los modelos se ajustaron (con y sin interacción). Como un analista puede hacer en la práctica, la no-interacción modelo fue elegido, a menos que el modelo con interacción fue determinado para ser "más importante" que el uno sin interacción. La decisión fue tomada por la comparación de la Aic de los modelos, en referencia a la diferencia a un $\chi^2(1)$ distribución, y estableciendo el nivel de significación en $95\%$. Lo que en realidad sucedió es que, en cada caso, la no-modelo de interacción que se haya elegido.

Visualmente, no hay interacción significa que el conjunto de curvas horizontales se traduce de cada uno de los otros: es decir, no va a ser una constante $\mu$ que $p(x,1)=p(x-\mu,2)$ todos los $x$. Usted puede ver esto en la segunda figura de arriba: el ajuste (curva negra) para las Especies 1 $\mu=9$ de la dosis unidades a la derecha del ajuste para las Especies 2. Uno podría interpretar esto como sigue:

La susceptibilidad de la Especie 2, la dosis es aproximadamente el mismo que el de dar a nueve unidades más de la dosis a un individuo de la Especie 1.

Como un ejemplo de lo que el efecto de esta dinámica de selección de modelo podría tener, vamos a modificar un poco. Supongamos que $12$ en lugar de $20$ de las muertes fueron observados en la Especie 1 en una dosis de "20+".

Figure 5: Data with fits and error polygons, altered data

Ahora, con bastante frecuencia, los datos parecen tener diferentes "formas" para las dos especies. Los modelos con interacción ajuste más pronunciado curvas dosis-respuesta de las Especies 2 de las Especies 1. Lo que resulta especialmente interesante es cómo estos superposición de ajuste y error de los sobres, en su conjunto representan (a) incertidumbre calculada dentro de cada modelo, (b) la incertidumbre debido a la cantidad de dosis que fueron grabadas, y ahora (c) incertidumbre debida a la analista de la elección del modelo.

-2voto

Josh Puntos 6

usted no necesita de regresión para este problema. Tomar un porcentaje simple de mató a todas las cucarachas.

Especies de especies 1 0 15 25 50 75 100 2 25 40 75 90 100 100

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X