Nombre del problema de análisis y reconocimiento

Question

Nombre del problema de análisis y reconocimiento

Preguntado el 21 de Abril, 2016: Cuando se hizo la pregunta
70 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo millones de documentos generados por los usuarios que contienen especificaciones de teléfonos inteligentes. Quiero obtener ciertas propiedades de esos documentos, por ejemplo Sistema operativo, resolución de la pantalla, procesador, RAM, resolución de la cámara. Ejemplo de documento:

GSM / HSPA / LTE
Dimensions 142.1 x 71.8 x 7.9 mm (5.59 x 2.83 x 0.31 in)
Weight 146 g (5.15 oz)
SIM Optional Dual SIM (Micro-SIM, dual stand-by)
Type Super AMOLED capacitive touchscreen, 16M colors
Size 5.0 inches (~67.5% screen-to-body ratio)
Resolution 720 x 1280 pixels (~294 ppi pixel density)
Multitouch Yes
OS Android OS, v5.1 (Lollipop)
Chipset Qualcomm MSM8916 Snapdragon 410
CPU Quad-core 1.2 GHz Cortex-A53
GPU Adreno 306
Card slot microSD, up to 128 GB
Internal 8 GB, 1.5 GB RAM
Primary 13 MP, 4128 x 3096 pixels, autofocus, LED flash
Features Geo-tagging, touch focus, face detection
Video 1080p@30fps
Secondary 5 MP, LED flash

De ese documento, quiero tener esto:

OS: Android
Display resolution: 720 x 1280
Processor: Quad-core 1.2 GHz Cortex-A53
RAM: 1.5GB
Camera resolution: 13MP, 5MP

Tenga en cuenta que mi documento no siempre será tan bueno, de hecho es uno de el más estructurado documento. ¿Cuál es el nombre del problema que quiero resolver? ¿Es un problema de "reconocimiento de entidades con nombre"?

Preguntado el 21 de Abril, 2016 por tinf0il55

Answer 1

2 Respuestas

Answer 2

1voto

user2514608 Puntos 11

Esta tarea puede formularse como un problema de llenado de huecos. Se han utilizado CRFs o RNNs para el modelo. Tiene mucha similitud con el reconocimiento de entidades con nombre. Cualquier cosa que se utilice para el reconocimiento de entidades con nombre probablemente también sirva para rellenar huecos.

Respondido el 23 de Abril, 2016 por user2514608 (11 Puntos )

Answer 3

0voto

Jonathan Fingland Puntos 26224

No hay mucha literatura sobre el análisis sintáctico de documentos semiestructurados. Puede utilizar el reconocimiento de entidades con nombre, pero todos los modelos preentrenados, como los campos aleatorios condicionales (CRF), no se ajustan a sus necesidades, ya que se centran en personas, organizaciones y otras clases básicas. Construir un conjunto de entrenamiento para su tipo de datos para entrenar tales modelos es muy costoso (sobre todo, consume tiempo). Y si intenta automatizar el proceso de anotación y construcción de su conjunto de entrenamiento, entonces habrá resuelto el problema...

Este problema es realmente no trivial (al menos para resolverlo con un enfoque genérico), y se pasa por alto en la literatura.

Conozco a algunos tipos que están especializados en eso. Sus ejemplos son muy similares a los tuyos. Tal vez puedas enviarles un correo para conocer algunas técnicas para resolver este problema: su sitio web http://www.scriptminer.com/

Respondido el 23 de Abril, 2016 por Jonathan Fingland (26224 Puntos )

Nombre del problema de análisis y reconocimiento

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Nombre del problema de análisis y reconocimiento

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: