2 votos

¿Por qué el porcentaje de aciertos es bajo y, sin embargo, es mejor que las adivinanzas al azar?

Estoy leyendo Introducción al aprendizaje estadístico. En la página 166 se menciona para el modelado KNN que una tasa de éxito del 11,7% es más del doble que la de la adivinación aleatoria. Mi pregunta es, primero, ¿cuál es la tasa de éxito de la adivinación aleatoria y por qué la tasa de éxito de KNN es tan baja y, sin embargo, mejor que otras tasas de éxito como la de la regresión logística, que es de alrededor del 50%?

2voto

Alan Puntos 7273

Su pregunta es difícil de entender sin el contexto. Se trata de utilizar el Caravan conjunto de datos para predecir los compradores de seguros de caravanas

Lo que dice el libro es que el uso de KNN con $K=1$ da los siguientes resultados

> table(knn.pred,test.Y)
           test.Y
knn.pred   No  Yes
No        873   50
Yes        68    9

lo que significa que, tras basar el modelo en $4882$ individuos en el conjunto de entrenamiento y aplicar ese modelo a la $1000$ otros individuos en el conjunto de pruebas, predice $68+9=77$ la gente comprará un seguro, y se $9$ de estos correctos, una proporción $\frac9{77}=11.7\%$ correcto

Si hubiera adivinado los compradores de seguros al azar, habría obtenido una proporción esperada $\frac{59}{1000}=5.9\%$ de los que predijeron que comprarían correctamente, aproximadamente la mitad de la cifra de KNN. Así que dice que KNN lo hizo mejor que la adivinación aleatoria

Continúa diciendo que el uso de KNN con $K=3$ habría llevado a $\frac{5}{26}=19.2\%$ mientras se usa $K=5$ habría llevado a $\frac{4}{15}=26.7\%$ correcto

No dice que con el mismo problema la regresión logística tendría una tasa de éxito de alrededor de $50\%$ . Más bien lo contrario:

Como comparación, también podemos ajustar un modelo de regresión logística a los datos. Si utilizamos $0.5$ como el corte de la probabilidad predicha para el clasificador, entonces tenemos un problema: sólo se predice que siete de las observaciones de la prueba comprarán un seguro. Y lo que es peor, ¡nos equivocamos en todas ellas!

Sin embargo, no estamos obligados a utilizar un límite de $0.5$ . En cambio, si predecimos una compra cada vez que la probabilidad de compra prevista supera $0.25$ obtenemos resultados mucho mejores: predecimos que $33$ la gente comprará un seguro, y estamos en lo cierto en cuanto a $33\%$ de estas personas. Esto es más de cinco veces mejor que las adivinanzas al azar.

La moraleja que ilustra esta parte del libro es que algunas preguntas son difíciles, pero con métodos adecuados y buenos parámetros, el aprendizaje automático puede producir resultados sustancialmente mejores que las conjeturas aleatorias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X