Estoy viendo un conjunto de datos que tiene el siguiente aspecto. Llamémoslo movies
:
Como puede ver, el genre
tiene varios valores. Lo mismo ocurre con la columna studio
columna. Estoy tratando de determinar cuál es el modelo de regresión lineal múltiple utilizando R con estas dos variables y el avg_score
columna. ¿Cómo lo hago? He intentado
Pero eso arroja estos datos:
¿Pero eso no parece correcto? En primer lugar... si la película está hecha desde el Estudio A, eso significa que no puede estar hecha desde el Estudio B. Además, si una película es de terror, no es un documental. ¿Cómo puedo capturar esa relación utilizando MLR y R? El resultado que he generado parece erróneo, ¿no?
Por ejemplo, veamos studio7th art
. ¿Es la forma de interpretar esa fila que tiene un coeficiente de 15,68 (Si el estudio está hecho por ellos, el avg_score
en promedio sube 15,68), con un valor p de 0,44 (no significativo), con un SE de 20? Esos datos parecen... inútiles. ¿Hay alguna manera de hacer esto que no sea una idiotez?