Sé que en el anova de una vía se compara la diferencia entre dos o más medias y lo mismo en el de dos vías, pero no tengo claro en qué difiere el uso de variables categóricas entre ellas.
Se agradece cualquier ayuda
Sé que en el anova de una vía se compara la diferencia entre dos o más medias y lo mismo en el de dos vías, pero no tengo claro en qué difiere el uso de variables categóricas entre ellas.
Se agradece cualquier ayuda
ANOVA de una vía. Hay dos variables, una categórica y otra numérica. La variable categórica podría especificar tres grupos de tratamiento y la variable numérica una medición en cada sujeto o unidad experimental.
Ejemplo: Los tratamientos podrían ser 1=Fármaco 1, 2=Fármaco 2 y 3=Placebo. Si hubiera 100 sujetos en el grupo (300 en total), la variable categórica tendría un centenar de 1, seguido de un centenar de 2, seguido de un centenar de 3. La variable numérica podría ser el nivel de una enzima hepática para cada uno de los 300 sujetos. La cuestión que hay que decidir es si la $g$ los niveles del factor son los mismos (tienen una media poblacional común) o si sus medias poblacionales difieren.
En el caso del consumo humano, los datos pueden presentarse en tres columnas de 100 números cada una, con la media del grupo y la desviación estándar al final de cada columna.
En un diseño no equilibrado, los grupos pueden tener diferentes números de observaciones. Tal vez el estudio de fármacos anterior se planificó para tener 100 personas en cada grupo, pero varias personas abandonaron el estudio, por lo que tenemos $n_1 = 99$ , $n_2 = 100$ y $n_3 = 94$ .
Un modelo ANOVA unidireccional, que puede tener $g > 2$ grupos, es una generalización de la prueba t de dos muestras, que siempre tiene $g = 2$ grupos.
Una tabla ANOVA tendrá dos filas, una para el fármaco (o factor de entre grupos) y otra para el error (o dentro de los grupos). En un diseño equilibrado con $g = 3$ y $n_1 = n_2 = n_3 = n = 100,$ los grados de libertad son los siguientes: DF(Drug) = $g - 1 = 2$ y DF(Error) = $g(n - 1) = 3(99) = 279.$ Si se proporciona una fila de Total, tiene DF(Total) = $gn - 1,$ que es uno menos que el número total de medidas numéricas.
El modelo para un diseño ANOVA de una vía es $Y_{ij} = \mu_i + e_{ij},$ donde $i = 1,\dots,g$ y $j = i,\dots,n_i$ . En un modelo ANOVA tradicional la variación aleatoria se modela como $e_{ij}$ IID $N(0, \sigma^2).$ Es decir la varianza de la población $\sigma ^2$ se supone que es igual en todos los $g$ grupos.
Diseño de bloques. Hay dos variables categóricas (factores) y una variable numérica. Sólo se toma una observación en cada combinación de factores.
Ejemplo: Cuatro marcas de vino de Borgoña (factor 1) son catadas por cada uno de los tres jueces (factor 2). Cada juez otorga una calificación de calidad a cada marca, de modo que hay 12 calificaciones.
Un diseño de bloques simple de este tipo es una generalización de una prueba t emparejada. En una prueba t emparejada sólo se compararían dos marcas de vino. Bloque es la generalización de par . Un diseño de bloques es un caso especial de un diseño ANOVA de dos vías en el que cada combinación de los factores (Brand y Judge) tiene sólo una observación.
Para el consumo humano, los datos suelen aparecer en un $b \times g$ matriz, donde $b$ es el número de bloques (jueces) y $g$ es el número de niveles del factor "principal" (marcas). Por lo general, la cuestión a decidir es si los niveles del factor principal tienen medias poblacionales diferentes, aunque uno podría estar interesado secundariamente en saber si algunos jueces dan sistemáticamente calificaciones más altas que otros.
Una tabla ANOVA para un diseño de bloques tendrá tres filas: En nuestro ejemplo, podrían llamarse Marca con DF = $g - 1$ , Juez con DF = $b - 1$ y Error = $(b-1)(g-1).$ Si se muestra una fila para el Total, tendrá DF = $bg - 1$ , de nuevo uno menos que el número total de medidas numéricas.
El modelo para este diseño en bloque es $Y_{ij} = \mu + \alpha_i + \beta_j + e_{ij},$ donde $i = 1,\dots,g,$ y $j = 1,\dots,b.$ Tradicionalmente, $e_{ij}$ IID $N(0, \sigma^2).$
ANOVA de dos vías. También aquí hay dos variables categóricas y una numérica. Pero hay varias réplicas para cada combinación de factores. Se trata de saber si los distintos niveles de los factores tienen medias poblacionales diferentes. Sin embargo, las múltiples mediciones en cada combinación de niveles de los factores plantea la posibilidad de realizar pruebas de interacción .
Ejemplo: En un experimento agrícola podemos tener 12 parcelas en las que se cultiva un producto. Al final de la temporada de cultivo se mide el rendimiento de cada parcela. Nos interesan tres tipos de abono y dos niveles de riego, lo que supone seis combinaciones de tratamiento. Se seleccionan al azar dos parcelas para cada combinación. De nuevo hay tres variables, dos categóricas (para el fertilizante y el riego) y una numérica (para el rendimiento).
Para el consumo humano, los datos pueden mostrarse en un $a \times b$ = $3 \times 2$ conjunto de células Cada uno de ellos con $n = 2$ réplicas (rendimientos).
Se produce una interacción si los rendimientos de una célula no pueden explicarse en términos de una suma de los efectos del fertilizante y del riego. Quizá un tipo de fertilizante funcione especialmente mal con un riego bajo.
La tabla ANOVA para un diseño de este tipo tiene cuatro filas: Fertilizante con DF = $a - b$ , Riego con DF = $b - 1,$ Interacción con DF = $(a-1)(b-1),$ y Error con DF = $ab(n-1).$ Si se muestra una fila de Total tiene DF = $abn - 1,$ de nuevo uno menos que el número total de rendimientos medidos.
El modelo para un ANOVA de dos vías es $Y_{ijk} = \mu + \alpha_i + \beta_j + \gamma_{ij} + e_{ijk},$ donde $i = 1,\dots,a,$ $j = 1,\dots,b,$ y $k=1,\dots,n.$ También en este caso, el diseño equilibrado tradicional tiene $e_{ijk}$ IID $N(0, \sigma^2).$
A veces se consideran diseños desequilibrados con números desiguales de observaciones en cada celda, pero requieren métodos computacionales e interpretaciones algo diferentes. Los diseños bidireccionales que hemos descrito aquí son aquellos con fijo efectos principales que pueden representarse en el modelo mediante parámetros desconocidos, pero constantes ( $\alpha_i$ y $\beta_j$ ). No discutimos los llamados mixto o al azar en los que uno o ambos factores están representados en el modelo por variables aleatorias.
I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.