Resumiendo
- ¿Cuál es la forma recomendada de tratar
discrete
datos al realizar la detección de anomalías? - ¿Cuál es la forma recomendada de tratar
categorical
datos al realizar la detección de anomalías? - Esta respuesta sugiere utilizar datos discretos para filtrar únicamente los resultados.
- ¿Quizás sustituir el valor de la categoría por el porcentaje de probabilidad de observación?
Introducción
Es la primera vez que escribo aquí, así que, por favor, si algo no parece técnicamente correcto, ya sea en el formato o en el uso de definiciones correctas, me interesa saber qué debería haberse utilizado en su lugar.
Adelante.
Recientemente he participado en el Aprendizaje automático clase de Andrew Ng
Para la detección de anomalías se nos ha enseñado a determinar cuáles son los parámetros de distribución Normal/Gaussiana para una característica/variable dada, ${x_i}$ dentro de un conjunto de datos, y luego determinar la probabilidad del valor de un conjunto elegido de ejemplos/observaciones de entrenamiento dada esa distribución gaussiana particular, y luego tomar el producto de las probabilidades de las características.
Método
Elija $x_i$ características/variables que creemos que explican la actividad en cuestión: $$\{x_1, x_2,\dots,x_i\}$$
Ajuste los parámetros de la gaussiana para cada característica: $$\mu_j = \frac{1}{m}\sum_{i = 1}^m x_j^{(i)}$$ $$\sigma^2 = \frac{1}{m}\sum_{i = 1}^m (x_j^{(i)} - \mu_j)^2$$
Para cada ejemplo de entrenamiento, $x$ computa: $$p(x) = \prod_{j = 1}^n \ p(x_j; \mu_j, \sigma_j^2)$$
A continuación, marcamos como anomalía ( $y = 1$ ), dado: $$y = \left\{ \begin{array}{l l} 1 & \quad p(x) < \epsilon\\ 0 & \quad p(x) \geq \epsilon \end{array} \right.$$
Esto nos da el método con el que determinar si un ejemplo requiere más inspección.
Mi(s) pregunta(s)
Esto parece correcto para variables/características continuas, pero no se abordan los datos discretos.
¿Qué pasa con las variables ficticias, por ejemplo, una característica de bandera de género, posiblemente llamada [IsMale]
que puede ser del valor $0, 1$ ? Para tener en cuenta una característica ficticia, ¿utilizaríamos la función distribución binomial para calcular $p(x)$ ?
¿Qué ocurre con los datos categóricos, como el color de un coche? Aunque podríamos asignar colores a valores numéricos, por ejemplo $red \to 1, blue \to 2$ la distribución de esta característica categórica podría ser casi uniforme (es decir, con la misma probabilidad de ser cualquiera de los colores) y, además, como cualquier asignación numérica que se produzca (es decir. $red$ que tiene el valor $1$ etc.) no es ordinal, ¿tiene sentido intentar transformar cualquier distribución no normal de frecuencias para que los colores se distribuyan normalmente (¿importa siquiera que no sea ordinal?)? Por ejemplo, para mí, no tendría sentido hacer un $log()$ ya que los datos no son ni continuos ni ordinales. Así que quizás lo mejor sería encontrar una distribución discreta que se ajuste a la característica, en lugar de "torturar" los datos para que se ajusten a la gaussiana?
Preguntas: (actualizado: 2015-11-24)
¿Pueden modelizarse las variables binarias con una distribución de probabilidad binomial y convertirse en un factor más de la $p(x)$ ¿Cálculo?En caso de que las variables categóricas deban modelarse con una distribución de probabilidad discreta en lugar de una gaussiana, y se conviertan en otro factor en la $p(x)$ ¿Cálculo?¿Existe algún otro método que tenga en cuenta lo que estoy preguntando y sobre el que pueda seguir investigando/aprendiendo?- ¿Cuál es la forma recomendada de tratar
discrete
datos al realizar la detección de anomalías? - ¿Cuál es la forma recomendada de tratar
categorical
datos al realizar la detección de anomalías?
Edición: 2017-05-03
- Esta respuesta sugiere utilizar datos discretos para filtrar únicamente los resultados.
- ¿Quizás sustituir el valor de la categoría por el porcentaje de probabilidad de observación?