8 votos

Es un Clasificador Bayesiano un buen enfoque para el texto numérico de meta-datos?

Estoy tratando de encontrar un enfoque para la detección de la estafa de los anuncios en mi sitio web. Creo que el problema tiene mucho en común con la detección de spam de correo electrónico (para que un clasificador Bayesiano ingenuo es una solución común) ya que muchas de las señales que indican una estafa en la que se encuentra en el texto del anuncio.

Sin embargo, hay algunas otras piezas de información que puede ser buena estafa de los indicadores, pero no estoy seguro de si/cómo un clasificador de Bayes podría hacer uso de ellos, porque implican valores numéricos (con valores en los extremos de la gama de los sospechosos), en lugar de simples valores binarios correspondientes a la presencia o ausencia de una palabra en el texto.

Por ejemplo, muchos estafa anuncios en el precio del elemento muy bajos (para atraer a un montón de puntos de vista), así que me gustaría más bajos que el precio normal para ser un fuerte indicador de que el anuncio puede ser una estafa.

Es de Bayes todavía un buen ajuste para mi requisito, si no, entonces podría recomendar un enfoque diferente?

7voto

John Richardson Puntos 1197

Bayes Naive de los clasificadores pueden acomodar las variables numéricas así como discretas sin demasiado problema. Esencialmente, hay tres enfoques: (i) discretise los valores numéricos (ii) el uso de un modelo paramétrico de cada atributo numérico (por ejemplo, Gauss) o (iii) el uso de un no-paramétricas (por ejemplo, Parzen) estimador de densidad para cada atributo numérico.

ver, por ejemplo, "Naive Bayes clasificadores que realizar también con variables continuas" por Remco Bouckaert

5voto

Bitwise Puntos 3141

Asegúrese de que puede utilizar Naive Bayes. Sólo tienes que especificar de qué tipo de condicional de distribución.

No puedo pensar en un par de opciones:

  1. Distribución binaria: Binarize sus datos utilizando un umbral, y volver a el problema que ya estaban de problemas.
  2. Distribución paramétrica: Si hay algo de razonable distribución paramétrica, por ejemplo, Gauss, usted puede usarlo.
  3. No paramétrico de la distribución: Decidir en contenedores para los datos numéricos y las usan para construir un empírica no paramétrico de la distribución.

3voto

loco41211 Puntos 119

Naive Bayes sin duda puede trabajar con atributos numéricos así como discretas (modulo preocupaciones acerca de la appropriacy de la supuesta distribución como se ha mencionado en otras respuestas). Sin embargo, usted debe considerar si usted realmente desea utilizar Naive Bayes, como la no-discriminación metodología se descomponen más y más a medida que combinar datos de distintas fuentes, con potencialmente fuertes correlaciones.

Si desea conservar un probabilística de la interpretación, considere la posibilidad de la regresión logística, que es exactamente análogo de Bayes Naive con una discriminativo en lugar de generativo objetivo (ver este artículo por ejemplo: Regresión Logística Vs Naive Bayes. Usted puede encontrar diferentes implementaciones de la misma: me gusta Mazo, si se puede usar java (accesible como una herramienta de línea de comandos o una API).

Si un estricto probabilística de la interpretación no es necesario, puede utilizar un SVM. Hay muchas implementaciones de este, pero el estándar de-facto (con una variante disponible en la mayoría de los idiomas) es LibSVM.

1voto

Johan Puntos 114

Puede utilizar valores numéricos con bastante facilidad. En el término P(Función|estafa=Sí), usted puede poner una distribución de gauss o cualquier otra distribución empírica de los datos de entrenamiento (por ejemplo, ordenar los datos, cree una función que devuelve el percentil de la entrada dada valor numérico). Aquí está una escritura que describe que la

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X