23 votos

Distribución extraña de clasificaciones de películas

Me gusta las matemáticas pero también me gustan las películas. He estado coleccionando películas toda mi vida. Mi colección es bastante grande: casi 25.000 películas. Siendo también un desarrollador, pude crear mi propio catálogo online y obtener varias estadísticas de la base de datos. Hay algo que me desconcierta.

Las películas tienen calificaciones y yo no inventé la mía: las copié de IMDb. Como probablemente ya sabes, las calificaciones de IMDb van de 1 a 10, siendo 1 la más baja. He creado un histograma representando la distribución de las calificaciones y se ve así:

Distribución de calificaciones de películas IMDb

Esperaba ver algo como una distribución normal, pero mi histograma tiene una curiosa caída alrededor de la calificación 7.0.
¿Es esto un fenómeno conocido en estadística?
¿Alguien ha visto algo así en otros datos?

16voto

Chris Lewis Puntos 466

Puedes obtener el conjunto de datos completo de IMDB (actualizado diariamente) desde aquí !

En él (a partir del 27/06/2023) hay 293,501 películas calificadas. La distribución de sus calificaciones se muestra a continuación:

enter image description here

Como puedes ver, el conjunto de datos completo no muestra la misma distribución bimodal que la muestra curada en la pregunta.

Esto sugiere que el muestreo está produciendo esta bimodalidad. Hay muchas posibles razones para esto, pero quizás los conjuntos de datos te permitirán explorar un poco más.


Muchas de las películas tienen 500 votos o menos. Si descartamos esas, nos quedamos con alrededor de 58k películas cuya distribución de calificaciones es la siguiente:

enter image description here

Un dato sorprendente sobre estos gráficos es lo altas que son las calificaciones. Parece que una calificación de 5 no corresponde a una película "promedio". Quizás obtienes algunos puntos de calificación por hacer una película en sí misma ;-).

6voto

Acccumulation Puntos 13

Esto se conoce como una "distribución bimodal". Los modos en este caso están cerca uno del otro, por lo que no es un efecto muy fuerte. Podrías modelar la distribución como la suma de dos distribuciones normales con medias ligeramente diferentes; es decir, hay dos "tipos" de películas que te gustan, una que promedia calificaciones ligeramente más altas que la otra.

La idea de que las distribuciones tienden a ser normales proviene del hecho de que una gran cantidad de números provienen de diferentes efectos, cada uno solo un pequeño porcentaje del efecto total, y no correlacionados o no muy correlacionados entre sí. La bimodalidad sugiere que hay algunos factores que tienen un efecto muy grande y/o están fuertemente correlacionados entre sí. Podría ser que haya dos grupos de películas, uno ligeramente mejor que el otro. O que haya un grupo de críticos que tiendan a dar calificaciones ligeramente por debajo de 7, y otro ligeramente por encima, y tienden a reseñar diferentes películas. Pero dado que según los gráficos de Chris Lewis, las películas en general no son bimodales, parece que hay dos grupos de películas que has recopilado. Por ejemplo, quizás la mitad de tu colección de películas fue elegida por ti y la otra mitad por tu pareja.

La bimodalidad es una característica que puede distinguir una distribución de una normal. Otras son lo que se llaman "momentos más altos". El primer momento describe dónde está el centro, y el segundo describe qué tan disperso está. Estos dos momentos varían de una distribución normal a otra, y al conocer estos dos momentos y que una distribución es normal, te dice cuál es su valor en cualquier punto. Para una distribución normal, todos los momentos pasados el segundo están determinados por los primeros dos, por lo que si los momentos reales no coinciden con lo que serían para una distribución normal, esa es otra forma en que la distribución se desvía de la normalidad.

El tercer momento básicamente mide qué tan simétrica es la distribución, y corresponde a "sesgo". Una distribución normal es perfectamente simétrica, y por lo tanto tiene una asimetría cero. Tu distribución tiene un sesgo negativo, lo que significa que se desvanece más lentamente a la derecha que a la izquierda.

3voto

EricS Puntos 152

Se trata de un caso de una Distribución Bimodal que tendrá dos picos.

En general, estas Distribuciones Bimodales son "mezclas" de 2 Distribuciones Unimodales, que pueden estar ocultas.

Aquí, supondría (porque no tengo más detalles para averiguar) que los usuarios de IMDB son de 2 tipos generales: "aquellos que piensan que las películas promedio deberían tener una calificación promedio que es ~6" y "aquellos que piensan que las películas promedio deberían tener una calificación promedio que es ~7". Juntando a los usuarios obtendremos 2 valores modales con 2 picos.

Cuando podamos agrupar a los usuarios en esos 2 tipos y luego hacer los Gráficos Individuales, obtendremos 2 Distribuciones Unimodales.

Ejemplos Intuitivos:

(1) Cuando hacemos la Distribución de Peso/Altura/Velocidad-para-corre-100-metros/Fuerza-para-levantar/etc entre la Población en general o entre los Jugadores Olímpicos, podemos obtener una Distribución Bimodal.

Cuando hacemos la Distribución de Peso/Altura/Velocidad-para-corre-100-metros/Fuerza-para-levantar/etc entre la Población masculina o entre los Jugadores Olímpicos masculinos, podemos obtener una Distribución Unimodal.
De igual manera, obtendremos una Distribución Unimodal entre las mujeres.

La fusión dará como resultado una Distribución Bimodal.

(2) Hay casos con más de 2 picos, Distribuciones Multimodales, que son "mezclas" de más de 2 Distribuciones Unimodales.
La Distribución del "Tiempo de Máximo de Clientes" en las Cantinas puede tener 3 (o 4) picos durante el desayuno, el almuerzo (y la merienda) y la cena.

2voto

Eso puede ser simplemente ruido.

Tu distribución realmente no tiene una distribución normal (el pico en meseta desde aproximadamente $6.4$ hasta $7.4$ es ancho en comparación con lo rápido que la distribución cae a cada lado de éste, especialmente a la izquierda) pero, incluso si lo tuviera, fácilmente podrías ver algo similar.

Aquí tienes un ejemplo simulado usando R con $25000$ muestras de una distribución normal y también tiene un descenso alrededor de $7.0$. Usar una semilla diferente daría un patrón diferente de picos y valles en el medio de la distribución pero con un ruido similar.

set.seed(2023)
plot(table(round(rnorm(25000, 7, 0.8), 1)), xlim=c(4.5, 9.0))

introducir descripción de la imagen aquí

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X