12 votos

Cómo manejar inexistente (no se encuentra) datos?

En realidad nunca he encontrado ninguna buena texto o ejemplos sobre cómo manejar la 'inexistente' datos de entradas para cualquier tipo de clasificador. He leído mucho sobre los datos que faltan, pero ¿qué se puede hacer acerca de los datos que no pueden o no existir en relación con multivariante de las entradas. Entiendo que esta es una pregunta bastante compleja y varía dependiendo de los métodos de entrenamiento utilizados...

Por ejemplo, si se intenta predecir laptime para varios corredores con buena exactitud de los datos. Entre las muchas entradas, variables posibles, entre muchos, son:

  1. Variable de entrada - Primera vez runner (S/N)
  2. De entrada Variable Anterior laptime ( 0 - 500 segundos)
  3. Variable De Entrada - Edad
  4. De Entrada De Altura Variable . . . muchas más variables de Entrada, etc

Y salida de Predictor - Predijo Laptime (0 - 500 segundos)

Una 'variable' por '2.Anterior laptime' puede calcularse de varias maneras, pero '1. Primera vez runner' siempre igual a N . Pero para la 'INEXISTENTE' DATOS para una primera vez corredor (donde '1. Primera vez runner' = Y) ¿qué valor/tratamiento debo darle para '2. Anterior laptime'?

Por ejemplo asignando '2. Anterior laptime' como -99 o 0 puede sesgar la distribución dramáticamente y hacer que se vea como un nuevo corredor, se ha realizado bien.

Mi formación actual de métodos han sido el uso de la regresión Logística, SVM, NN y árboles de Decisión

8voto

Noam Gal Puntos 155

Para una regresión logística ajustado por máxima verosimilitud, siempre y cuando usted tiene tanto de (1) y (2) en el modelo, entonces no importa qué valor "predeterminado" que le dan a los nuevos corredores para (2), la estimación de (1) se ajusta en consecuencia.

Por ejemplo, supongamos $X_1$ ser el indicador de la variable "es un nuevo corredor", y $X_2$ ser la variable "anterior laptime en cuestión de segundos". A continuación, el predictor lineal es:

$\eta = \alpha + \beta_1 X_1 + \beta_2 X_2 + \ldots$

Si el valor predeterminado para $X_2$ es cero, entonces el predictor lineal para un nuevo corredor es:

$\eta = \alpha + \beta_1 + \ldots$

mientras que para un corredor existente, será:

$\eta = \alpha + \beta_2 X_2 + \ldots$

Ahora supongamos que usted cambie el valor predeterminado para $X_2$ de 0 a -99. A continuación, el predictor lineal para un nuevo corredor, ahora es:

$\eta = \alpha + \beta'_1 - 99 \beta_2 + \ldots$

pero para un corredor existente, seguirá siendo el mismo. Así que todo lo que hemos hecho es reparameterise el modelo, de tal manera que $\beta'_1 - 99 \beta_2 = \beta_1$, y desde el de máxima verosimilitud es paremeterisation invariantes, las estimaciones se ajustará en consecuencia.

Por supuesto, si usted no está utilizando máxima verosimilitud (es decir, usted está utilizando algún tipo de penalización o antes en los parámetros), entonces usted va a obtener valores diferentes a menos que usted ajuste la penalización/antes en consecuencia. Y si el modelo es no lineal (por ejemplo, SVM, NN y árboles de Decisión), entonces este argumento no funciona en absoluto.

6voto

Marc-Andre R. Puntos 789

En lugar de asignar un valor especial para inexistente primera vez finalista de la vuelta anterior vez, simplemente utiliza el término de interacción de la vuelta anterior vez con la inversa de la primera vez corredor ficticio:

$$Y_i=\beta_0+\beta_1 FTR_i+\beta_2 (NFTR_i)\times PLT_i+...$$

aquí

  • $Y_i$ es la variable de entrada,
  • $...$ corresponde a la de otras variables,
  • $FTR_i$ es ficticio por primera vez corredor,
  • $PLT_i$ es el anterior el tiempo de vuelta y
  • $NFTR_i$ es ficticio para no ser los primeros en el tiempo corredor equivale a 1, cuando $FTR_i=0$ y 0 en caso contrario.

A continuación, el modelo por primera vez los corredores será:

$$Y_i=(\beta_0+\beta_1) + ...$$

y para no ser los primeros corredores de tiempo:

$$Y_i=\beta_0+ \beta_2 PLT_i + ...$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X