6 votos

¿Cómo agregar a valores extremos a unas datos existentes?

Quiero probar algunas medidas de similitud para la detección de valores atípicos. Tengo algunos datos del repositorio de la UCI, por ejemplo: Cáncer de mama.

¿Hay una manera inteligente para añadir a afloramientos artificiales a los datos existentes?

Gracias.

6voto

Amadiere Puntos 5606

Hay dos comúnmente visto enfoques:

  1. Agregar valores atípicos a datos reales por métodos de aleatorización.

  2. Con el fin de obtener una rara clase, reducir la resolución de una clase a la dispersión deseada (generalmente, esta debe ser <<1%)

Para 1 hay algunas variantes - la modificación de una sola atributos, dibujo de cada atributo, pero desde diferentes instancias, etc.; personalmente, estoy no del todo convencido de estos métodos. Debido a que simular un efecto particular de los datos de la dilución, y por lo tanto a menudo a favor de los algoritmos diseñados en torno a un mismo concepto de outlierness. Un método que hace bien en dichos conjuntos de datos, a continuación, a menudo no mal cuando su real los valores atípicos no son causados por este tipo muy específico de errores.

Para 2, usted tendrá que enfrentar el hecho de que algunos de los conjuntos de datos son demasiado duros. El hecho de que una clase es más rara que la de los demás no significa que sean realmente los valores atípicos; incluso si usted reducir hasta el extremo. Además, este enfoque también es bastante ingenuo: se supone que la mayoría de la clase ¿ no contener valores atípicos. En cualquier conjunto de datos reales que he visto cada clase tendrá valores atípicos dentro de la clase, también. Así que no espere que su método para poder ir a 90% en estos conjuntos de datos. Si se puede mejorar de 70% a 80%, entonces su método ya funciona bastante bien. Nada más allá de un 80% puede ser indicativo de un cierto sesgo en mi humilde opinión.

Al revisar la detección de valores atípicos papeles, creo que el resultado mayor de 0.80 a ser sospechoso: el conjunto de datos fue demasiado diseñado para el algoritmo, el algoritmo parámetro fueron sistemáticamente ajustado para encontrar el mejor resultado posible, o tal vez el resultado es falso por completo.

En la mayoría de los casos en donde he visto el WBC conjunto de datos que se utiliza, se transformará en el cáncer de clase como en 10 casos. Pero entonces, usted no debe decirle a su algoritmo para obtener el top 10 de los resultados. En un escenario real, usted no sabe que hay 10 valores atípicos que se pueda encontrar...

2voto

cbeleites Puntos 12461

Los valores atípicos se piensa generalmente en relación con el modelo, ya que los comentarios ya discutir. Pero eso no nos dice nada acerca de cómo se generan: pueden ser eventos raros por el mismo proceso descrito por el modelo (aproximadamente 1 en 10 ⁹ estándar de la distribución normal de los números será < -6) o pueden ser generados por un proceso que no está incluido en el modelo.

Por lo general, uno no se preocupa por el primero, ya que el modelo es adecuado para ellos.

Pero con respecto a esto último, se puede simular sólo cosas que usted tenga una idea de que el proceso de generación. Si desea inesperado de los acontecimientos raros, no hay manera, pero la recopilación de datos y a la espera de que les ocurra. Y en mi humilde opinión no tiene sentido discutir esto sin discutir el proceso subyacente/problema/tarea (no sólo el modelo). Es la misma naturaleza de las cosas que usted no puede dar un típico atípico. Y necesita, para discutir la importancia de su valor atípico proceso de generación del modelo y el problema. En mi humilde opinión, no hay almuerzo gratis teorema se aplica mucho para la detección de valores atípicos.

Se recomienda la lectura ;-) "Diario de Aprendizaje de Máquina Chismes" de Papel de que un par de copias todavía flotan aroud en la red.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X