2 votos

Uso de R para ejecutar modelos de regresión múltiple cuando una de las variables categóricas tiene varios niveles

Estoy viendo un conjunto de datos que tiene el siguiente aspecto. Llamémoslo movies :

enter image description here

Como puede ver, el genre tiene varios valores. Lo mismo ocurre con la columna studio columna. Estoy tratando de determinar cuál es el modelo de regresión lineal múltiple utilizando R con estas dos variables y el avg_score columna. ¿Cómo lo hago? He intentado

enter image description here

Pero eso arroja estos datos:

enter image description here

¿Pero eso no parece correcto? En primer lugar... si la película está hecha desde el Estudio A, eso significa que no puede estar hecha desde el Estudio B. Además, si una película es de terror, no es un documental. ¿Cómo puedo capturar esa relación utilizando MLR y R? El resultado que he generado parece erróneo, ¿no?

Por ejemplo, veamos studio7th art . ¿Es la forma de interpretar esa fila que tiene un coeficiente de 15,68 (Si el estudio está hecho por ellos, el avg_score en promedio sube 15,68), con un valor p de 0,44 (no significativo), con un SE de 20? Esos datos parecen... inútiles. ¿Hay alguna manera de hacer esto que no sea una idiotez?

4voto

"Si la película se hace desde el Estudio A, eso significa que no se puede hacer desde el Estudio B". - Eso está implícito en cómo se crearon las variables. Lo que internamente sucede es que R está creando variables ficticias a partir de su variable catgórica.

En cualquier registro, sólo 1 de las variables ficticias tendrá un valor de 1, mientras que todas las demás serán 0.

"Por ejemplo, veamos el arte de Studio7th". - Si el coeficiente de una regresión muestra un valor p alto, podría significar varias cosas diferentes. En su caso, el mayor problema es que tiene un gran número de niveles para el estudio y probablemente no hay suficientes observaciones en su conjunto de datos para caracterizar cada nivel.

Así que, en lugar de construir un modelo con todos los estudios, puedes construir tú mismo las variables ficticias. Algo parecido a "Estudio-Categoría1", que incluye algunas de las casas más grandes. "Estudio-Categoría2" con los estudios más pequeños, etc., que conocerías por tu experiencia en el sector.

Posteriormente, construya su modelo con estas variables como entradas en lugar de las categorías completas del estudio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X