Estoy leyendo Introducción al aprendizaje estadístico. En la página 166 se menciona para el modelado KNN que una tasa de éxito del 11,7% es más del doble que la de la adivinación aleatoria. Mi pregunta es, primero, ¿cuál es la tasa de éxito de la adivinación aleatoria y por qué la tasa de éxito de KNN es tan baja y, sin embargo, mejor que otras tasas de éxito como la de la regresión logística, que es de alrededor del 50%?
Respuesta
¿Demasiados anuncios?Su pregunta es difícil de entender sin el contexto. Se trata de utilizar el Caravan
conjunto de datos para predecir los compradores de seguros de caravanas
Lo que dice el libro es que el uso de KNN con $K=1$ da los siguientes resultados
> table(knn.pred,test.Y)
test.Y
knn.pred No Yes
No 873 50
Yes 68 9
lo que significa que, tras basar el modelo en $4882$ individuos en el conjunto de entrenamiento y aplicar ese modelo a la $1000$ otros individuos en el conjunto de pruebas, predice $68+9=77$ la gente comprará un seguro, y se $9$ de estos correctos, una proporción $\frac9{77}=11.7\%$ correcto
Si hubiera adivinado los compradores de seguros al azar, habría obtenido una proporción esperada $\frac{59}{1000}=5.9\%$ de los que predijeron que comprarían correctamente, aproximadamente la mitad de la cifra de KNN. Así que dice que KNN lo hizo mejor que la adivinación aleatoria
Continúa diciendo que el uso de KNN con $K=3$ habría llevado a $\frac{5}{26}=19.2\%$ mientras se usa $K=5$ habría llevado a $\frac{4}{15}=26.7\%$ correcto
No dice que con el mismo problema la regresión logística tendría una tasa de éxito de alrededor de $50\%$ . Más bien lo contrario:
Como comparación, también podemos ajustar un modelo de regresión logística a los datos. Si utilizamos $0.5$ como el corte de la probabilidad predicha para el clasificador, entonces tenemos un problema: sólo se predice que siete de las observaciones de la prueba comprarán un seguro. Y lo que es peor, ¡nos equivocamos en todas ellas!
Sin embargo, no estamos obligados a utilizar un límite de $0.5$ . En cambio, si predecimos una compra cada vez que la probabilidad de compra prevista supera $0.25$ obtenemos resultados mucho mejores: predecimos que $33$ la gente comprará un seguro, y estamos en lo cierto en cuanto a $33\%$ de estas personas. Esto es más de cinco veces mejor que las adivinanzas al azar.
La moraleja que ilustra esta parte del libro es que algunas preguntas son difíciles, pero con métodos adecuados y buenos parámetros, el aprendizaje automático puede producir resultados sustancialmente mejores que las conjeturas aleatorias.