Quiero saber si es posible construir un problema con las siguientes propiedades:
$M_1$ $n \times p$ matriz de $n$ observaciones de Clase a Un
$M_2$ $n \times p$ matriz de $n$ observaciones de Clase B (estoy guardando $n$ mismo por la sencillez, pero no es necesario)
A continuación la función devuelve un vector de ceros:
D=function(X,Y)
{
m1=colMeans(X)
m2=colMeans(Y)
s1=apply(X,2,sd)
s2=apply(Y,2,sd)
return(abs((m1-m2)/(s1+s2)))
}
cuando se llama con $X=M_1$$Y=M_2$.
Sin embargo, cuando la regresión logística se ejecuta en el conjunto de datos, viene con un clasificador que se puede clasificar con precisión entre las dos clases. Yo creo que no es posible, pero quería preguntar. La motivación detrás de la cuestión es que yo estaba trabajando en un problema real donde $D$ valores eran bastante pequeñas (menos de 0.1 en promedio), pero la LR clasificador fue capaz de marcar el AUC de 0,66 en el conjunto de datos de entrenamiento.
EDIT: estoy publicando una pregunta de seguimiento después de la respuesta. Basado en la respuesta, siento su razonable la hipótesis de que el rendimiento de LR debe ser correlacionada positivamente con $D$ - de hecho yo uso $D$ valores para decidir cual de las características que quieres introducir a LR (selección de función). Pero hace poco me encontré con un problema donde esta hipótesis parecía ser violado. No puedo publicar los datos, pero aquí están los dos casos:
En un caso (caso 1) mi función vector tenía $D$ puntuación dada por:
$D = (0.1290, 0.07961, 0.06397, 0.07427, 0.04373, 0.06814)$
como se puede observar los valores son muy pequeños, pero cuando me encontré con LR tengo AUC de 0,66 y aquí está la salida de LR:
Call:
glm(formula = class ~ ., family = "binomial", data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.6911 -0.3394 -0.2880 -0.2376 2.9908
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.671e+00 3.412e-01 -10.758 < 2e-16 ***
V98 1.671e-04 2.751e-05 6.074 1.25e-09 ***
V99 -5.708e-04 1.296e-04 -4.403 1.07e-05 ***
V100 4.075e-04 8.066e-05 5.051 4.39e-07 ***
V101 -1.084e-03 2.441e-04 -4.442 8.92e-06 ***
V102 6.915e-03 1.510e-03 4.580 4.64e-06 ***
V103 -2.220e-02 5.890e-03 -3.770 0.000163 ***
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1929.8 on 5039 degrees of freedom
Residual deviance: 1852.2 on 5033 degrees of freedom
AIC: 1866.2
Number of Fisher Scoring iterations: 7
Ahora compare de arriba para el caso 2 , donde he función de los vectores con los siguientes valores de $D$:
$D=(0.0350, 0.1545, 0.0942, 0.0182, 0.2346, 0.3499)$
en promedio, por encima de $D$ valores son casi 2 veces mayor que en el caso 1 , pero la LR clasificador cayó de plano sobre su cara. Aquí está el resultado:
Call:
glm(formula = class ~ ., family = "binomial", data = df)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.7968 -0.3597 -0.2762 -0.1380 2.8111
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 7.56148 9.79303 0.772 0.44004
energy -0.09437 0.08758 -1.078 0.28123
entropy 1.19914 2.67011 0.449 0.65336
correlation 173.27758 75.08438 2.308 0.02101 *
sd.energy 0.22770 0.16946 1.344 0.17906
sd.entropy -15.64633 9.30878 -1.681 0.09280 .
sd.correlation -287.35575 104.54289 -2.749 0.00598 **
---
Signif. codes: 0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 192.98 on 503 degrees of freedom
Residual deviance: 173.42 on 497 degrees of freedom
AIC: 187.42
Number of Fisher Scoring iterations: 8
> auc
[1] 0.4585417
Así que mi dilema es ¿cómo se puede anterior se explica? ¿Cómo es que cuenta con un bajo $D$ son capaces de dar una mejor clasificación de características con mayor $D$? y así, si $D$ no es un indicador de una buena función, entonces ¿qué métrica puede ser utilizada para determinar qué características de alimentación en un LR?