Estoy trabajando con datos SNP de GWAS y quiero realizar varias pruebas de asociación entre genotipo y fenotipo. Hay dos fenotipos (caso y control) y 2 o tres genotipos. La mayoría son pruebas Chi-cuadrado con diferentes tablas de contingencia, $2 \times 2$ ou $2 \times 3$ una de ellas es la prueba de tendencia de Cochran-Armitage (CATT)
Una vez construida la tabla de contingencia, puedo obtener fácilmente una $p$ -mediante la tecla Biblioteca matemática Apache commons para las pruebas Chi-cuadrado. No hay problema.
Sin embargo, la explicación de la CATT en Wikipedia no me basta para aplicarlo (mis conocimientos de estadística son limitados y aún estoy aprendiendo).
Como en el ejemplo, sospecho una tendencia lineal, así que mis ponderaciones son $t = (0,1,2)$ lo que hace que la fórmula para $T$ a: $$ T \equiv (N_{12}R_2 - N_{22}R_1) + 2(N_{13}R2 - N_{23}R1) $$ y el de la varianza $$ Var(T) = {{R_1 R_2} \over N} ( N(C_2+4C_3) - (C_2 - 2C_3)^2) $$
He comprobado cómo el programa PLINK lo hace, puesto que ya está implementado allí, pero difiere ligeramente de las fórmulas anteriores. El código fuente C++ allí correspondería a esto: $$ T = {(N_{12}R_2 - N_{22}R_1) + 2(N_{13}R2 - N_{23}R1)\over N} $$ y $$ Var(T) = {{R_1 R_2} \over N} {( N(C_2+4C_3) - (C_2 - 2C_3)^2) \over N^2} $$
A continuación, calcula un valor de chi-cuadrado como el siguiente $$ \chi^2_{T} = {T^2 \over Var(T)} $$ y calcula el $p$ -como para cualquier otro valor chi-cuadrado con $df = 1$
No necesito entender la teoría por completo, siempre que mi programa calcule correctamente, pero entenderla me daría una confianza adicional.
¿Es esto correcto o legítimo? ¿Es así como obtendré el $p$ -¿Valor?