Recientemente he publicado una pregunta con muchas partes y me gustaría centrarme en un solo tema que no me hincapié en el post original.
Mis datos es una lista de registros, cada uno representando a un seminario educativo evento. Tengo una variable continua que representa los ingresos aportados por cada seminario, que es la variable de respuesta en mi regresión. También tengo un número de variables categóricas que están actuando como factores/IVs.
Uno de los factores categóricos es el presidente anfitrión del evento. El problema es que a veces más de un altavoz anfitriones de un evento en particular. Hasta la fecha, todos nuestros altavoces han sido elaboradas a partir de un grupo de 154. La mayoría del tiempo, solo se utiliza el altavoz, pero en aproximadamente el 10% de los puntos de datos, dos, tres o incluso cuatro oradores fueron utilizados. En la actualidad, esto se representa en mis datos con las barras ("Altavoz / Altavoz / Altavoz Tres"). He escrito un script de Python que se puede encontrar el promedio de los ingresos en un determinado intervalo de fechas para los seminarios que tome un determinado nivel de una variable categórica (por ejemplo, podría devolver el promedio de ingresos para todos los seminarios en 2008 que para el Altavoz Uno de ellos fue el anfitrión)...mi script puede leer los múltiples altavoz formato de bien, de la lectura de los nombres en los lados opuestos de un " / " como altavoces por separado.
Por desgracia, R no parece ser capaz de hacer nada de eso...me he encontrado con una regresión múltiple en mis datos y, obviamente, se trata de "Altavoz", "Altavoz de Dos" y "Altavoz / Altavoz de Dos" como tres diferentes altavoces. Mis múltiples r-cuadrado valor es de menos de 0.5 así que tengo la esperanza de que la resolución de este problema podría ayudar a mejorar el modelo de...la mejor manera de proceder?