El problema obvio de utilizar una gaussiana para modelar datos de conteo (u ordinales) es que podríamos obtener valores negativos. Además, podríamos tener los problemas de predecir números decimales en lugar de enteros y de que el modelo lineal tenga una "tolerancia fija" a medida que la media estimada aumenta, mientras que con un modelo de regresión tipo Poisson seríamos más flexibles porque la varianza y la media estimadas son proporcionales entre sí. En resumen, tanto la inferencia estadística como las predicciones de ese modelo son problemáticas.
Además, sin entrar en demasiados detalles, La división en lotes de una variable continua es una mala idea. porque añade subjetividad a nuestro análisis y disminuye la potencia estadística de nuestros modelos. No me extenderé en esto porque CV.SE ya tiene un par de grandes hilos sobre esto. Yo recomendaría revisar los hilos en: ¿Cuál es el efecto de dicotomizar las variables? y ¿Cuándo debemos discretizar/binizar las variables independientes continuas/características y cuándo no? . Destacan el fuerte consenso para evitar la binarización/dicotomización de las variables continuas.
Dicho esto, los modelos de regresión tipo Poisson (por ejemplo, regresión Poisson, Quasi-Poisson, Binomio Negativo, etc.) no son una panacea en sí mismos. En una situación como la que usted describe, no son óptimos porque pueden dar predicciones fuera de rango y, sobre todo, no tienen en cuenta la naturaleza aditiva de las calificaciones. (De entrada, podríamos decir que un modelo como el beta-binomial podría solucionar el "problema de los rangos", pero en realidad es una medida provisional).
Como la calificación es una respuesta ordinal, (es decir, una variable de respuesta categórica ordenada) la función MASS::polr
debería ser más apropiado; implementa la rutina de regresión logística de probabilidades proporcionales. Simplificando un poco las cosas: mediante un modelo de probabilidades proporcionales en lugar de modelar la probabilidad de respuesta en una categoría concreta (como haríamos si simplemente asumiéramos una respuesta multinomial sin ningún tipo de ordenación), modelamos la probabilidad acumulada de que la respuesta no sea mayor que una categoría elegida. Este es también el punto central detrás del supuesto de probabilidades proporcionales en el que se basa este modelo; es decir, que la "tasa de cambio" estimada a través de dos niveles de respuesta es la misma independientemente del par de resultados que consideremos. En particular, en el caso mencionado, el "right-skewness" de los datos tampoco es un problema. Ananth y Kleinbaum (1997) Modelos de regresión para respuestas ordinales: una revisión de métodos y aplicaciones es un documento muy accesible sobre el tema. A&K señalan algún ejemplo en SAS, pero en las páginas de consulta de UCLA Stats se puede encontrar un tutorial muy completo sobre el análisis de variables de respuesta ordinal utilizando R: aquí Lo recomiendo encarecidamente, ya que ofrece una explicación paso a paso con ejemplos de código.
Así que para recapitular, para los datos que tenemos, un regresión logística de probabilidades proporcionales es probablemente el más apropiado. Permite evitar la dicotomización innecesaria de nuestros datos, así como encapsular bien la naturaleza de la variable de respuesta ordinal.