4 votos

¿Cómo usar funciones previstas de predicción?

Tengo los datos de evaluaciones.

Mi clasificación de datos contiene algunas características técnicas como el Originador (Canal), el día exacto y la hora de la emisión, la duración del programa, etc. y, obviamente, la etiqueta, que es la clasificación. De modo que los datos se parece a:

+\begin{align}
& \int_0^\varepsilon \left( \int_0^z \left( \int_0^y\frac 1 {1-x^3} \, dx\right) \, dy\right) \, dz \\[12pt]
= {} & \iiint\limits_{0 \,\le\,x\,\le\,y\,\le\,z\,\le \, \varepsilon } \frac 1 {1-x^3} \,d(x,y,z).
\end\begin{align}
& \int_0^\varepsilon \left( \int_x^\varepsilon \left( \int_y^\varepsilon \frac 1 {1-x^3} \,dz \right) dy \right) dx \\[10pt]
= {} & \int_0^\varepsilon \int_x^\varepsilon \frac{\varepsilon-y}{1-x^3}\,dy\,dx \\[10pt]
= {} & \frac 1 2 \int_0^\varepsilon \frac{(\varepsilon-x)^2}{1-x^3} \, dx 
\end+\begin{align}
& \frac{(\varepsilon-x)^2}{1-x^3} = \frac{(1-x)(1+x)}{(1-x)(1+x+x^2)} \\[10pt]
= {} & \frac{1+x}{1+x+x^2} = \underbrace{\frac{1/2}{1+x+x^2}}_{\Large\text{complete the square, etc.}} + \underbrace{\frac{(1/2) + x}{1+x+x^2}}_{\Large\text{routine substitution}}
\end-------+-----------------+----------------+----------------------------------+---------------+
| Programa | Autor | fecha | Duración (min) | algunas otras características técnicas... | Real |clasificación
+---------+------------+-----------------+----------------+----------------------------------+---------------+
| Imperio | FOX| 24/5/2016 21:00 | 58 | ... | 4.6% |
| Gotham | FOX| 24/5/2016 21:58 | 32 | ... | 3.1% |
+---------+------------+-----------------+----------------+----------------------------------+---------------+

Basado en el histórico de datos de evaluaciones, necesito para predecir el futuro calificaciones, cuando todos los parámetros de que el tren se les da, a excepción de la etiqueta de curso.

Mi problema es:

Un punto muy positivo para la calificación de predicción es el llevar encima, o cuál fue el rating del programa anterior.

Quiero formar mi modelo con la función de la transferencia, pero no estoy seguro de cómo debo agregar? Debo entrenar el modelo con el real carry-over? (la calificación real del programa anterior)? En el conjunto de pruebas del traspaso sería tan sólo una aproximación a la real carry-over (será la predicción, no de la calificación, como se oponen a los datos de entrenamiento - porque no puedo saber de antemano cuál sería la calificación del programa anterior) , por lo que la correlación de la prórroga con el real calificaciones en la prueba de conjunto podría ser menos significativa, a continuación, en el tren... ¿Cómo debo abordar este problema?

2voto

guest Puntos 26

Parece ser que hay (al menos) tres tipos de función de la ingeniería a hacer aquí. La primera se refiere a que el carry-over (que es el objetivo de tu pregunta). El segundo implica transformaciones de otros datos a los formularios más utilizados por ML de algoritmos. La tercera involucra en otros programas.

Voy a empezar con la segunda, como es necesario para el primero y el tercero.


Dejando carry-over para más adelante, por el momento, parece que algunas de las funciones que pueden ser manipulados para un mejor uso (puede que ya han hecho esto, pero no se indica en la pregunta).

  • El date de columna de visualización de la televisión, probablemente, tiene una fuerte diaria de los componentes estacionales, probablemente semanal de los componentes estacionales, y posiblemente anual estacional de los componentes (véase, por ejemplo, la Predicción De índices de audiencia en TV Con la Dinámica de los Modelos). Es un a-priori poco probable que un programa a transmitirse a las 3:30 de la mañana antes de una jornada de trabajo, tendrán la misma calificación como un show que se transmite en la tarde de un fin de semana. También podría darse el caso de que la gente ve de manera diferente en el invierno y el verano, durante las vacaciones, y así sucesivamente.

    Debido a esto, es posible que desee transformar la date de columna en una serie de características: el diario la hora, el día de la semana, posiblemente una variable de indicador de si es fin de semana o vacaciones, el mes, posiblemente un indicador de la temporada, y posiblemente un indicador de un período de vacaciones.

  • El Program de columna Decir sus datos de prueba se $n$ días en el futuro, y el programa ya está en el aire. Las calificaciones ahora se sabe que este programa son, probablemente, algún indicador para el futuro de calificación. En consecuencia, es posible que desee agregar dos columnas (al menos): el pasado de calificación para este programa $n$ días o antes (usando un promedio, por ejemplo), y una columna para el número de medidas utilizadas para el pasado calificaciones. (Si un programa no era en $n$ días anteriores, usted puede codificar como -1 y 0, respectivamente). Usted podría ir más allá y analizar las tendencias para el programa, o evaluaciones de programas similares, pero tal vez debería empezar con esto.

  • El Originator columna - usted podría querer algo así como una bañera de codificación de aquí.

(Si no lo has hecho ya) estas transformaciones podrían aumentar la exactitud de la predicción, y la disminución de la importancia relativa de los carry-over. Algunas de estas características también puede ser utilizado como proxy para el equipaje.


Quiero formar mi modelo con la función de la transferencia, pero no estoy seguro de cómo debo agregar? Debo entrenar el modelo con el real carry-over? (la calificación real del programa anterior)? ... Que yo no puedo saber de antemano cuál sería la calificación del programa anterior)

En general, es mejor evitar el entrenamiento en el uso de una cosa, y la prueba con algo que no es exactamente el mismo. Así que, como su pregunta implica, es problemático para entrenar el uso de los reales de llevar a cabo, y luego predecir mediante la predicción de llevar a cabo.

En lugar de la predicción de la inmediatamente anterior, vamos a pensar que se basa en cómo lo haría.

  • La popularidad del programa anterior es posiblemente afectadas por la hora del día, día de la semana, y así sucesivamente, pero eso es ya "codificados" en las características de la actual feria, así que ¿por qué repetirlo.

  • Del mismo modo, la popularidad de cualquiera de los inmediatamente anterior muestra puede ser determinada por sus portadores, pero que no aporta nada (sabemos que Fox estará transmitiendo algo justo antes del show estamos predecir, por ejemplo). Esto ya está implícitamente codificados en el resto de las características.

  • La única cosa que no parece ser ya codificada en el resto de las columnas, es el pasado calificaciones de la muestra inmediatamente anterior a este espectáculo. Por ejemplo, cuando Juego De Tronos aires, su probable, que la muestran a continuación podrán disfrutar de grandes carry-over, pero sabemos esto porque el pasado calificaciones de GoT eran altas. Creo que es mejor para codificar estos datos como una característica, y dejar que el predictor aprender a usarlo.

    Una sencilla función para agregar, por lo tanto, sería la clasificación de los más populares muestran anterior se basa en su historial de valoraciones (utilizando el mismo de dos columnas de codificación como antes).


Por último, es posible que desee agregar como una función de la calificación de los más populares muestran que compiten con esto, de nuevo basado en su historial de valoraciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X