Según Kohavi y John (página 5), en la función del problema XOR $X_1$ es muy relevante, pero sospecho que esta afirmación
La definición de relevancia fuerte implica $p(Y=y|X_i=x_i, S_i=s_i) \ne p(Y=y|S_i=s_i)$ Esto significa que hay algunos casos en los que el conocimiento de $X_i$ modificó las probabilidades de clasificar $y$ bajo una determinada clase.
Consideremos el $Y=0$ caso. En este caso, $p(Y=0|Si)=\frac48=\frac12$ considerando todos los valores posibles de $S_i$ donde $Y$ es $0$ (casos $0,1,6,7$ en la tabla siguiente). En este caso, la probabilidad condicionada por $X_i$ es $p(Y=0|X_1=0,S_i)=\frac24=\frac12$ (casos $0,1$ de los posibles $0,1,2,3$ casos), y $p(Y=0|X_1=1,S_i)=\frac24=\frac12$ (casos $6$ y $7$ de los casos posibles $4,5,6,7$ ).
Por el contrario, para el caso $Y=1: p(Y=1|S_i)=\frac48=\frac12$ (casos $2, 3, 4$ y $5$ ). $X_i$ La probabilidad condicionada es $p(Y=1|X_1=0,S_i)=\frac24=\frac12$ (casos $2, 3$ ), $p(Y=1|X_1=1,S_i)=\frac24=\frac12$ (casos $4, 5$ ).
Vemos que en cualquiera de los casos posibles se cumple la condición de relevancia fuerte, y podríamos decir que la característica $X_1$ no es estrictamente necesario para clasificar $Y$ aunque puede mejorar la precisión de la clasificación cuando se añade al conjunto de características (por ejemplo, en los casos $0,1,4,5$ añadiendo $X_1$ mejora la precisión de la clasificación).
Dado que este documento es más que $20$ años sospecho firmemente que mi comprensión es errónea, ¿qué me estoy perdiendo aquí?
Cuadro
case X1 X2 X3 X4 X5 Y
0 0 0 0 1 1 0
1 0 0 1 1 0 0
2 0 1 0 0 1 1
3 0 1 1 0 0 1
4 1 0 0 1 1 1
5 1 0 1 1 0 1
6 1 1 0 0 1 0
7 1 1 1 0 0 0