8 votos

Tratar con "trouble maker" muestras

Tengo un bonito conjunto de datos grande (~300 casos con ~40 atributos continuos, binario etiqueta) que he usado para crear diferentes alternativas de modelos de predicción. Para ello, el conjunto fue dividido para el entrenamiento y validación de los subconjuntos (~60:40% respectivamente).

He notado que hay varios ejemplos (tanto en el entrenamiento y la validación de subconjuntos) que están siendo clasificados erróneamente por todos o la mayoría de los modelos alternativos que puedo probar.

Sospecho que hay algo especial acerca de estos "problemas para hacer" las muestras. ¿Cuáles son las pautas generales para el descubrimiento de las posibles razones detrás de la mala conducta de los modelos específicos de muestras?

Actualización 1 estoy usando regresión logística para esta tarea. La selección de parámetros se realiza mediante una búsqueda exhaustiva de las combinaciones de hasta 4 predictores con 10-fold cross valiation. Vale la pena mencionar que los valores de P que es calculado por el modelo para el mal clasificado muestras suelen ser muy diferente de la predeterminada clasificación umbral de 0.5. En otras palabras, no sólo es el modelo equivocado acerca de esos casos, también es muy segura de sí misma

Actualización 2 -- lo que ya he hecho

Estoy de acuerdo en que la comprensión del dominio de estudio son cruciales, pero hasta la fecha no hemos podido descubrir algo importante. También, he probado a quitar el "malo" de las muestras del conjunto de entrenamiento, y mantener el conjunto de validación y la selección de parámetros del algoritmo de la virgen. Esto condujo a un mejor rendimiento en el conjunto de entrenamiento (de forma natural), sino que también ha mejorado significativamente el rendimiento en el conjunto de validación. Es esto una indicación de que el "malo" de las muestras fueron realmente "malo"?

9voto

jeremcc Puntos 3720

Creo que esto va a requerir experiencia en el dominio. Si yo fuera usted, me gustaría pasar el tiempo que el examen de estas muestras y su procedencia, para averiguar lo que (si acaso) que está mal con ellos. Si las muestras fueron recogidas por un colega que trabaja en algún dominio de la aplicación, que puede ser capaz de ayudarle con esto.

A veces, las muestras pueden ser, de hecho, el 'malo'. Por ejemplo, podrían ser mal etiquetadas, recogidos en diferentes circunstancias que el resto, recogidos en el uso de equipos de calibración, o puede haber muchas otras razones por las que son valores atípicos. Sin embargo, usted no sólo debe decir "estos son probablemente mal" y eliminar; mucho mejor para identificar lo que está mal con ellos de modo que usted puede comprobar que son malas y justificar su eliminación.

Una de las razones para la cautela es que en realidad no podría ser malo, dibujado a partir de una parte de su espacio muestral que no están bien representadas en los datos. En ese caso, usted no debe tirar de ellos hacia fuera, usted debe (si es posible) recopilar más como ellos.

Otra razón es que las muestras en las extremidades de un concepto son los que puede ser más difícil de clasificar correctamente, pero si en realidad no son malos y se los quite, que acaba de terminar con nuevas muestras en las extremidades. Para tomar una artificial ejemplo, suponga que usted es la clasificación de las muestras como en Caliente/NotHot, y todo por encima de los 50 grados debe estar caliente. Las muestras en un 49.9 grados y 50.1 grados son muy similares, aunque son diferentes lados de su decisión de límite, por lo que sólo son difíciles de clasificar, y no los valores extremos que deben ser desechadas. También, si usted los quita, usted puede encontrar que dos muestras nuevas (y 50.2 49.8 grados) que anteriormente se clasifican correctamente ahora están obteniendo mal clasificadas.

Un punto final: cuando usted dice que las muestras del conjunto de entrenamiento son generalmente ser erróneamente clasificados, ¿quieres decir que bajo una cruz de validación de esquema o, literalmente, que cuando se prueba en los datos de entrenamiento que están clasificados de forma incorrecta? Si la última, podría ser que la clasificación de los métodos que está utilizando no es capaz de captar la varianza de los datos lo suficientemente bien.

Espero que esto ayude un poco ...

3voto

Patrick Puntos 183

Creo que usted está sufriendo de la presencia de valores atípicos en el diseño de la matriz. El remedio es detectar mediante un robusto multivariable estimador de escala (tal como se puede utilizar la mediana para detectar valores atípicos en un univariante, pero no se puede utilizar la media debido a la propia media es sensible a la presencia de valores atípicos). De alta calidad de los estimadores ya están presentes en el R-base de la herramienta (a través de la MISA).

Te aconsejo que leas el siguiente (no técnica) resumen introducción a multivariante método robusto:

P. J. Rousseeuw y K. van Driessen (1999) Un algoritmo rápido para el mínimo de covarianza determinante estimador. Technometrics 41, 212-223.

Hay muchas buenas implementación en R, uno que recomiendo especialmente es covMcd() en el paquete robustbase (mejor que la MASA de implementación, debido a que incluye el pequeño de la muestra factor de corrección).

Un uso típico sería:

x<-mydata #your 300 by 40 matrix of **design variables**
out<-covMcd(x)
ind.out<-which(out$mcd.wt==0)

Ahora, ind.salida contiene los índices de las observaciones señaladas como valores atípicos. Usted debe excluir de la muestra y vuelva a ejecutar el procedimiento de clasificación en el 'descontaminen' de la muestra.

Creo que va a estabilizar sus resultados, resolver su problema. Háganos saber :)

EDIT: Como se ha señalado por Chl (en los comentarios, más abajo). Podría ser aconsejable, en su caso, para complementar el duro rechazo de la regla utilizada en el código anterior por un método gráfico (una aplicación de la que se puede encontrar en el paquete de R mvoutlier). Esto es totalmente coherente con el enfoque propuesto en mi respuesta, de hecho, está muy bien explicado (y en la ilustración) en el papel que cite anteriormente. Por lo tanto, me limitaré a señalar dos argumentos en su favor que puede ser especialmente relevante a su caso (suponiendo que de hecho tienen un valor atípico problema y que estos pueden ser encontrados por el mcd):

  1. Proporciona un visualmente fuerte ilustración del problema con valores atípicos cada una de las observaciones se asocia con una medida de su influencia en las estimaciones resultantes (observaciones con influencia desproporcionada, a continuación, se destacan).
  2. El enfoque propuesto se aplica un fuerte rechazo de la regla: en pocas palabras, cualquier observación, cuya influencia sobre el final de las estimaciones es mayor que un cierto umbral se considera un valor atípico. La gráfica de enfoque podría ayudar a ahorrar algo de observación, tratando de recuperar aquellas observaciones cuya influencia sobre el estimador está más allá del umbral, pero sólo por una pequeña cantidad. Es importante en el contexto de su modelo porque 300 observaciones en un 40 dimensiones del espacio es más bien escasa.

1voto

Chris Cudmore Puntos 634

Abordar el problema mencionado en la sección Update 2. Usted está tratando con valores atípicos. Los valores atípicos tienen un impacto significativo en sus coeficientes de Regresión Logística. Mediante la eliminación de ellos, se encontró que los modelos se realiza mejor en el conjunto de validación.

Qué significa que los valores atípicos son "malas"? No. Esto significa que ellos son influyentes. Existen varias medidas de estadística distancias para confirmar cuán lejos e influyentes tales valores atípicos. Estos incluyen Cook, D y DFFITS.

Después de haber identificado los problemas políticos, que están luchando con la posibilidad de mantenerlos o no. En última instancia, esto puede ser un juicio cualitativo en lugar de un estadístico de la pregunta. Aquí hay un par de preguntas de investigación que pueden ser útiles en la toma de esta cualitativo decisión: 1) en Primer lugar, los valores atípicos realmente malo debido a la mala mediciones? 2) Es más importante para sus modelos correctos en las colas donde los valores atípicos residir o ser más preciso en la gran mayoría de los casos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X