6 votos

¿Es posible que un caso donde $D'$ es cero pero la regresión logística es todavía capaz de clasificar con precisión?

Quiero saber si es posible construir un problema con las siguientes propiedades:
$M_1$ $n \times p$ matriz de $n$ observaciones de Clase a Un
$M_2$ $n \times p$ matriz de $n$ observaciones de Clase B (estoy guardando $n$ mismo por la sencillez, pero no es necesario)
A continuación la función devuelve un vector de ceros:

D=function(X,Y)
{
    m1=colMeans(X)
    m2=colMeans(Y)
    s1=apply(X,2,sd)
    s2=apply(Y,2,sd)
    return(abs((m1-m2)/(s1+s2)))
}

cuando se llama con $X=M_1$$Y=M_2$.
Sin embargo, cuando la regresión logística se ejecuta en el conjunto de datos, viene con un clasificador que se puede clasificar con precisión entre las dos clases. Yo creo que no es posible, pero quería preguntar. La motivación detrás de la cuestión es que yo estaba trabajando en un problema real donde $D$ valores eran bastante pequeñas (menos de 0.1 en promedio), pero la LR clasificador fue capaz de marcar el AUC de 0,66 en el conjunto de datos de entrenamiento.

EDIT: estoy publicando una pregunta de seguimiento después de la respuesta. Basado en la respuesta, siento su razonable la hipótesis de que el rendimiento de LR debe ser correlacionada positivamente con $D$ - de hecho yo uso $D$ valores para decidir cual de las características que quieres introducir a LR (selección de función). Pero hace poco me encontré con un problema donde esta hipótesis parecía ser violado. No puedo publicar los datos, pero aquí están los dos casos:

En un caso (caso 1) mi función vector tenía $D$ puntuación dada por:

$D = (0.1290, 0.07961, 0.06397, 0.07427, 0.04373, 0.06814)$

como se puede observar los valores son muy pequeños, pero cuando me encontré con LR tengo AUC de 0,66 y aquí está la salida de LR:

Call:
glm(formula = class ~ ., family = "binomial", data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.6911  -0.3394  -0.2880  -0.2376   2.9908  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -3.671e+00  3.412e-01 -10.758  < 2e-16 ***
V98          1.671e-04  2.751e-05   6.074 1.25e-09 ***
V99         -5.708e-04  1.296e-04  -4.403 1.07e-05 ***
V100         4.075e-04  8.066e-05   5.051 4.39e-07 ***
V101        -1.084e-03  2.441e-04  -4.442 8.92e-06 ***
V102         6.915e-03  1.510e-03   4.580 4.64e-06 ***
V103        -2.220e-02  5.890e-03  -3.770 0.000163 ***
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1929.8  on 5039  degrees of freedom
Residual deviance: 1852.2  on 5033  degrees of freedom
AIC: 1866.2

Number of Fisher Scoring iterations: 7

Ahora compare de arriba para el caso 2 , donde he función de los vectores con los siguientes valores de $D$:

$D=(0.0350, 0.1545, 0.0942, 0.0182, 0.2346, 0.3499)$

en promedio, por encima de $D$ valores son casi 2 veces mayor que en el caso 1 , pero la LR clasificador cayó de plano sobre su cara. Aquí está el resultado:

Call:
glm(formula = class ~ ., family = "binomial", data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-0.7968  -0.3597  -0.2762  -0.1380   2.8111  

Coefficients:
                 Estimate Std. Error z value Pr(>|z|)   
(Intercept)       7.56148    9.79303   0.772  0.44004   
energy           -0.09437    0.08758  -1.078  0.28123   
entropy           1.19914    2.67011   0.449  0.65336   
correlation     173.27758   75.08438   2.308  0.02101 * 
sd.energy         0.22770    0.16946   1.344  0.17906   
sd.entropy      -15.64633    9.30878  -1.681  0.09280 . 
sd.correlation -287.35575  104.54289  -2.749  0.00598 **
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 192.98  on 503  degrees of freedom
Residual deviance: 173.42  on 497  degrees of freedom
AIC: 187.42

Number of Fisher Scoring iterations: 8

> auc
[1] 0.4585417

Así que mi dilema es ¿cómo se puede anterior se explica? ¿Cómo es que cuenta con un bajo $D$ son capaces de dar una mejor clasificación de características con mayor $D$? y así, si $D$ no es un indicador de una buena función, entonces ¿qué métrica puede ser utilizada para determinar qué características de alimentación en un LR?

3voto

jldugger Puntos 7490

Su intuición es correcta: un ejemplo de ello es imposible.

A ver por qué no, considerar tanto $M_1$ $M_2$ como colecciones de $p$-vectores. Debido a que el valor de la predicción de cualquier vector en una regresión logística es una función lineal, la predicción perfecta significa que existe una codimension-$1$ afín hiperespacio que separa todos los puntos en $M_1$ de los $M_2$. Que implica su centroides no coinciden, QED.

Figure

En esta figura, $p=2$ y los grupos tienen tamaños de $30$ (círculos rojos) y $10$ (triángulos azules). Sus centroides se muestran como correspondiente lleno de gráficos. Perfecto se produce una separación, como se muestra por el gris de la línea de puntos. Desde los centroides debe estar en lados opuestos de esta línea, que no puede coincidir.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X