Es un Clasificador Bayesiano un buen enfoque para el texto numérico de meta-datos?

Question

Es un Clasificador Bayesiano un buen enfoque para el texto numérico de meta-datos?

Preguntado el 11 de Noviembre, 2012: Cuando se hizo la pregunta
1662 visitas: Cuantas visitas ha tenido la pregunta
4 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de encontrar un enfoque para la detección de la estafa de los anuncios en mi sitio web. Creo que el problema tiene mucho en común con la detección de spam de correo electrónico (para que un clasificador Bayesiano ingenuo es una solución común) ya que muchas de las señales que indican una estafa en la que se encuentra en el texto del anuncio.

Sin embargo, hay algunas otras piezas de información que puede ser buena estafa de los indicadores, pero no estoy seguro de si/cómo un clasificador de Bayes podría hacer uso de ellos, porque implican valores numéricos (con valores en los extremos de la gama de los sospechosos), en lugar de simples valores binarios correspondientes a la presencia o ausencia de una palabra en el texto.

Por ejemplo, muchos estafa anuncios en el precio del elemento muy bajos (para atraer a un montón de puntos de vista), así que me gustaría más bajos que el precio normal para ser un fuerte indicador de que el anuncio puede ser una estafa.

Es de Bayes todavía un buen ajuste para mi requisito, si no, entonces podría recomendar un enfoque diferente?

Preguntado el 11 de Noviembre, 2012 por rasmusb

Answer 1

4 Respuestas

Answer 2

7voto

John Richardson Puntos 1197

Bayes Naive de los clasificadores pueden acomodar las variables numéricas así como discretas sin demasiado problema. Esencialmente, hay tres enfoques: (i) discretise los valores numéricos (ii) el uso de un modelo paramétrico de cada atributo numérico (por ejemplo, Gauss) o (iii) el uso de un no-paramétricas (por ejemplo, Parzen) estimador de densidad para cada atributo numérico.

ver, por ejemplo, "Naive Bayes clasificadores que realizar también con variables continuas" por Remco Bouckaert

Respondido el 13 de Noviembre, 2012 por John Richardson (1197 Puntos )

Answer 3

5voto

Bitwise Puntos 3141

Asegúrese de que puede utilizar Naive Bayes. Sólo tienes que especificar de qué tipo de condicional de distribución.

No puedo pensar en un par de opciones:

Distribución binaria: Binarize sus datos utilizando un umbral, y volver a el problema que ya estaban de problemas.
Distribución paramétrica: Si hay algo de razonable distribución paramétrica, por ejemplo, Gauss, usted puede usarlo.
No paramétrico de la distribución: Decidir en contenedores para los datos numéricos y las usan para construir un empírica no paramétrico de la distribución.

Respondido el 13 de Noviembre, 2012 por Bitwise (3141 Puntos )

Answer 4

3voto

loco41211 Puntos 119

Naive Bayes sin duda puede trabajar con atributos numéricos así como discretas (modulo preocupaciones acerca de la appropriacy de la supuesta distribución como se ha mencionado en otras respuestas). Sin embargo, usted debe considerar si usted realmente desea utilizar Naive Bayes, como la no-discriminación metodología se descomponen más y más a medida que combinar datos de distintas fuentes, con potencialmente fuertes correlaciones.

Si desea conservar un probabilística de la interpretación, considere la posibilidad de la regresión logística, que es exactamente análogo de Bayes Naive con una discriminativo en lugar de generativo objetivo (ver este artículo por ejemplo: Regresión Logística Vs Naive Bayes. Usted puede encontrar diferentes implementaciones de la misma: me gusta Mazo, si se puede usar java (accesible como una herramienta de línea de comandos o una API).

Si un estricto probabilística de la interpretación no es necesario, puede utilizar un SVM. Hay muchas implementaciones de este, pero el estándar de-facto (con una variante disponible en la mayoría de los idiomas) es LibSVM.

Respondido el 14 de Noviembre, 2012 por loco41211 (119 Puntos )

Answer 5

1voto

Johan Puntos 114

Puede utilizar valores numéricos con bastante facilidad. En el término P(Función|estafa=Sí), usted puede poner una distribución de gauss o cualquier otra distribución empírica de los datos de entrenamiento (por ejemplo, ordenar los datos, cree una función que devuelve el percentil de la entrada dada valor numérico). Aquí está una escritura que describe que la

Respondido el 13 de Diciembre, 2012 por Johan (114 Puntos )

Es un Clasificador Bayesiano un buen enfoque para el texto numérico de meta-datos?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Es un Clasificador Bayesiano un buen enfoque para el texto numérico de meta-datos?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: