He corrido un experimento con 5 categórica factores. Los factores que tienen entre 2 y 8 niveles cada uno. Tengo una variable de respuesta, que es continua en el intervalo de 0 a 100. Todo-en-todo, he de ejecutar un experimento factorial completo con 800-algo combinaciones. Cada combinación tiene 10 muestras. En total, en R-hablar, tengo un marco de datos con 6 columnas y 8607 filas.
Mi objetivo: determinar el nivel de cada factor que resulta en un mejor rendimiento. Por ejemplo, quiero ser capaz de decir "el Rendimiento es generalmente mejor cuando se factor1 es el nivel "a", factor2 es de nivel"C", ..., y factor5 es el nivel "E". Conclusiones: utilice siempre el nivel "a" para factor1 ....".
¿Cómo puedo lograr esto?
Pensé por primera vez en la PCA, pero esto no es del todo correcto ya que los componentes que PCA encuentra son combinaciones de factores, pero tengo que ser capaz de decir que el factor de nivel es mejor, para todos y cada uno de los factores. Quiero mantener los factores en el tacto.
También pensé de ANOVA, que puede ser lo que yo quiero, pero no estoy seguro de cómo usar su salida. Por ejemplo, en R, me sale:
> summary(aov(...))
Df Sum Sq Mean Sq F value Pr(>F)
preprocess 7 21.430 3.061 180.771 < 2.2e-16 ***
bugData 2 5.276 2.638 155.782 < 2.2e-16 ***
fileData 5 6.462 1.292 76.315 < 2.2e-16 ***
param1 2 255.766 127.883 7551.306 < 2.2e-16 ***
param2 1 15.579 15.579 919.887 < 2.2e-16 ***
Residuals 8589 145.457 0.017
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
No sé cómo interpretar estos resultados. Es que param1 tiene el mayor efecto, ya que la "Suma de Cuadrados" es más grande? ¿Cómo puedo saber cuál es el nivel de param1 es mejor?
Así que, esta es mi idea: Para cada factor, comparar el "ganar-porcentaje" de cada nivel en contra de todos los otros niveles. Es decir, el número de veces que el nivel X "beats" de nivel Y, dado que todos los otros factores son iguales. Puedo comparar el nivel X y nivel Y un montón de veces, porque hay muchos otros factores y niveles de los factores. Así, puedo cambiar el nivel de los otros factores, comparar el nivel de X y el nivel Y en el factor actual, y seguir la pista de quién ganó. Haciendo esto, debo terminar con algo como "Para factor1, levelX beats levelY 85% del tiempo, y por lo tanto es la mejor opción."
¿Este enfoque de sentido? Hay un nombre para eso? O es que hay otro enfoque en conjunto que logre lo que quiero?
Cualquier ayuda o consejos son muy apreciados. Yo preferiría si mi respuesta es aplicable en R, pero me puedo adaptar. Tengo un muy robusto de la máquina a utilizar (16 procesadores, 196 G de RAM), así que no estoy demasiado preocupado acerca de la eficiencia del algoritmo que resuelve mi problema.