4 votos

¿Cómo sé si la clasificación de promedio es un buen predictor de mis calificaciones para un producto?

Tengo un pequeño conjunto de datos que contiene los nombres de los libros, su promedio de Goodreads calificaciones y clasificaciones que me han dado. Quiero saber si la calificación media de un libro es un buen predictor de la clasificación voy a dar el mismo libro. He aquí una pequeña muestra de los datos:

                                                                Title           Author
340 Quiet: The Power of Introverts in a World That Can't Stop Talking       Susan Cain
276                                                       The Witches       Roald Dahl
63                                               The 48 Laws of Power    Robert Greene
293                     Blink: The Power of Thinking Without Thinking Malcolm Gladwell
128                                                       The Martian        Andy Weir
119                                     The Design of Everyday Things Donald A. Norman
71          The Hostile Hospital (A Series of Unfortunate Events, #8)   Lemony Snicket
33                                       The Stonekeeper (Amulet, #1)    Kazu Kibuishi
369            Y: The Last Man, Vol. 1: Unmanned (Y: The Last Man #1) Brian K. Vaughan
222                                                    The Book Thief     Markus Zusak
    Average.Rating My.Rating
340           4.02         4
276           4.16         4
63            4.16         5
293           3.87         5
128           4.39         4
119           4.16         5
71            3.93         4
33            4.13         2
369           4.12         3
222           4.35         3

¿Cómo puedo saber si Average.Rating es un buen predictor de la My.Rating? He probado el cor función en R y la correlación que me dieron fue 0.1970633.

Lo que yo entiendo de este resultado es que el poder predictivo de un Goodreads rating es insignificante. De ello se deduce que podría tener un resultado similar si yo hubiera elegido al azar a los libros de una librería.

Sin embargo, no creo que Goodreads calificaciones son tan de fiar como la correlación parece sugerir. En realidad, creo que la mayoría de los libros que tienen una alta calificación son los que tengo personalmente me gustó así. También, puedo intuir que la selección de libros basados en el género y la calificación media es un enfoque mucho mejor que escoger al azar los libros de una librería o biblioteca.

Lo que me estoy perdiendo?

Actualización:

Aquí está el gráfico de dispersión de los datos: Sctterplot of My Rating vs Avg Rating

Esto es resultado de que cor.test me da:

Pearson's product-moment correlation  data:  rated$Average.Rating and rated$My.Rating

t = 2.9746, df = 219, p-value = 0.003263

alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval:
 0.06683011 0.32069438 sample estimates:
      cor 
0.1970633

2voto

hstoerr Puntos 698

Mirando a su diagrama de dispersión (que es muy útil, en mi opinión), yo diría, no te estás perdiendo nada. La media de puntuación en Goodreads no es muy informativo acerca de su propia calificación de un libro. Su tamaño de la muestra es con 221 observaciones no demasiado pequeño, y hay libros que te gusta con alta así como una baja promedio de las calificaciones de todos a través de la junta.

Por supuesto, usted puede hacer algunos análisis que toma en cuenta la naturaleza ordinal como una regresión ordinal de su propia variable de clasificación que sólo toma valores en el conjunto $\{1,2,3,4,5\}$ pero eso no va a cambiar mucho. Tal vez sólo hay unos pocos libros con un alto promedio de Goodreads que valora muy mal, pero creo que esto es un callejón sin salida.

No creo que Goodreads calificaciones son tan de fiar como el correlación parece sugerir

Su sentimiento no parece estar justificada por los datos que aquí se presentan. Ni por la correlación que se presenta aquí, ni por el diagrama de dispersión. El gráfico no sugiere ninguna relación no lineal con la mayor precisión sugerido por DeltaIV en su comentario (antes de que el diagrama de dispersión fue añadido al post).

Siento que la mayoría de los libros que tienen una alta calificación son los que tengo personalmente me gusta así

Si te preocupas más por ciertos libros de los demás, es decir, si sería muy triste para no leer los libros, usted podría tratar de agregar pesos, marcando la importancia de los libros y ver si ambas calificaciones dar más resultados similares en este caso? Pero esto es, por supuesto, una complejidad adicional.

Puedo intuir que la selección de libros basados en el género y la calificación media es un enfoque mucho mejor que escoger al azar los libros de una librería o en la biblioteca.

Esta es una pregunta interesante y no podemos contestar con los datos en la mano (porque los libros, y tal vez de las calificaciones, en su Goodreads no han sido escogidos al azar seleccionado). Si usted quiere estar seguro, haga un experimento: Sólo seleccione al azar y leer 20 libros o así (por ejemplo, recoger una gran cantidad de, por ejemplo, de los números ISBN de novelas y el uso de un generador de números aleatorios, tales como el sample() función en R). Dar soy una calificación y no se ven en Goodreads antes de que la tasa de libro; a continuación, mira la correlación de su calificación y la Goodreads rating para aquellos seleccionados al azar de los libros. Por supuesto, vuelve a nosotros y nos dicen si esta cambiado su experiencia con respecto a la Goodreads calificaciones! En este caso, no es principalmente una estadística problema, sino un "problema" de que las muestras no aleatorias y el comportamiento humano :-)

PS: estoy completamente de acuerdo con DeltaIV muy buen comentario que me gustaría echar un vistazo si muchas promedio de Goodreads calificaciones están basadas en (muy) observaciones/valoraciones.

2voto

OmaL Puntos 106

EDIT: después de pensar en esto por un poco más, estoy convencido de que usted realmente no necesita regresión ordinal. Consulte a continuación para ver el motivo.

El diagrama de dispersión muestra claramente una relación no lineal. Esto era de esperar, debido a que el predictor (X) es una variable continua (la Media.Rating), mientras que la respuesta es una variable ordinal (Mi.Rating). Una constante a trozos función es, por supuesto, no lineal. En este caso, el rango de correlación de Spearman sería más adecuado medida de correlación de Pearson el coeficiente de correlación. De todos modos, tienes razón en su intuición de que hay una conexión entre la Media.Clasificación y Mi.Clasificación de la prueba de correlación, se rechaza la hipótesis de un nulo coeficiente de correlación), pero la correlación es débil debido a la gran variabilidad. En otras palabras, para un dado a Mi.Clasificación, el diagrama de dispersión muestra claramente que hay dos libros con muy alto Promedio.Clasificación y libros con Media muy baja.Clasificación. También podemos ver esta numéricamente con

books <- read.csv("books.csv")
rated <- books[books$My.Rating != 0, ]
library(dplyr)
mysummary<- rated %>% group_by(My.Rating) %>% summarize(min = min(Average.Rating), IQR = IQR(Average.Rating), median = median(Average.Rating), mean = mean(Average.Rating), max = max(Average.Rating)) %>% arrange(My.Rating)
mysummary
# Source: local data frame [5 x 6]
# 
#   My.Rating   min    IQR median     mean   max
#       <int> <dbl>  <dbl>  <dbl>    <dbl> <dbl>
# 1         1  3.79 0.2250   3.82 3.950000  4.24
# 2         2  3.61 0.2800   3.84 3.928095  4.45
# 3         3  3.49 0.3950   3.88 3.955686  4.36
# 4         4  3.53 0.2975   3.98 4.007604  4.49
# 5         5  3.64 0.2650   4.07 4.059800  4.44

Como A Mi.Clasificación de los aumentos de 1 a 5, la media, y especialmente la mediana de la Media.Clasificación de aumentar, pero la dispersión de la Media.Clasificación, cuantificado por IQR o max - min, sigue siendo amplia. Podemos ver esta muy bien con un boxplot:

rated$My.Rating <- as.factor(rated$My.Rating)
ggplot(rated,aes(x = Average.Rating, y = My.Rating)) + geom_boxplot()+coord_flip()

enter image description here

el boxplot muestra claramente que, como la mediana de la Media.Clasificación de los aumentos, Mi.Clasificación también aumenta, sin embargo, existe una gran dispersión entre este valor de la mediana. Esta es la razón por la que usted no puede obtener un buen (exacta) de regresión de Mi.Clasificación por sobre el Promedio.Clasificación, ya sea que usted use regresión ordinal o no. Otro punto interesante es que usted no tiene realmente bajo de la Media.Calificaciones (el mínimo es de 3.49), mientras que usted tiene muy baja Mi.Las calificaciones. Esto es en parte debido al efecto de suavizado de la media.

Para obtener mejores resultados usted necesita agregar predictores, la cual debe estar relacionada con su respuesta, y posiblemente no muy correlacionados entre sí. Después de haber tenido la posibilidad de ver los datos, yo creo que no se puede hacer mucho mejor, a menos que recopilar más datos. Usted tiene una clasificación de las Estanterías variable) de algunos libros (no todos), pero algunos de los libros que pertenecen a más de una categoría. Usted podría tratar de crear columnas adicionales para cada categoría, es decir, ficción, humor, etc., y por cada libro que iba a poner un 1 (o VERDADERO) si el libro pertenece a la categoría de $j$, de lo contrario deje en 0 (o FALSO). Entonces usted puede comprobar si estas variables ayuda a la predicción de Mi.Clasificación. Este es el "más simple" mejora puede probar con los datos en la mano. Sin embargo, creo que tendría mejor suerte si usted podría reunir más datos, debido a que su verdadero problema es que al agregar a todos los comentarios en un solo número (el promedio de la calificación), de deshacerse de valiosa información, y la hemorragia de la potencia estadística. Dos posibles caminos:

  1. Usted sería capaz de predecir Mi.Clasificación mucho mejor, si para cada libro, se puede recuperar la calificación de todos los revisores que examinó ese libro, no sólo la media. Supongamos que usted tiene $N$ personas en total. A continuación, para cada libro $i$, usted debe tener un vector de longitud $N$, cuya entrada $r_j$ es la revisión de revisor $j$, en caso de que él/ella revisó el libro, o un NA valor en caso de que ella/él no lo hizo. Si usted tiene acceso a este tipo de datos, se puede utilizar un sistema de recomendación algoritmo, como por ejemplo el Filtrado Colaborativo. Otra opción sería la regresión ordinal, según lo sugerido por @ArneJonasWarnke. Sin embargo, no creo que usted está realmente interesado en conseguir un Mi.Clasificación de exactamente 5, o 4, etc. Supongo que también sería feliz con una calificación de 4.95, es decir, con un continuo de respuesta, en lugar de a un ordinal. Después de todo, si, para el libro de $i$, el modelo predice que usted le daría una puntuación media de, digamos, 4.96, usted podría considerar la posibilidad de que vale la pena leer, ¿verdad? Esto significa que usted podría simplificar su vida por el uso de algún tipo de regularización lineal de regresión, en lugar de regularización de la regresión ordinal. En este caso, el LAZO y la cresta de regresión son sus amigos (véase, por ejemplo, el paquete glmnet). Recuerde que con este enfoque necesita de regularización, porque es probable que haya mucho más que los revisores de los libros, es decir, mucho más predictores de observaciones.
  2. de una forma más simple (y probablemente menos eficaz) alternativa sería la de recuperar algunas estadísticas de la revisión de las distribuciones, en lugar de simplemente el promedio de revisión. Por ejemplo, si por cada libro que usted puede encontrar el número de 1 estrella en los comentarios, el número de 2 estrellas, comentarios, etc., a continuación, utilizando estos datos como extra predictores, se podría construir una regresión lineal con alguna posibilidad de éxito. De nuevo, si realmente quería un ordinal respuesta, es decir, si una respuesta de 3.7 es inaceptable para usted, entonces usted necesita para cambiar a la regresión ordinal o SVM multiclase. Yo realmente no veo por qué agitar un avispero, aunque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X