1 votos

Nombre del problema de análisis y reconocimiento

Tengo millones de documentos generados por los usuarios que contienen especificaciones de teléfonos inteligentes. Quiero obtener ciertas propiedades de esos documentos, por ejemplo Sistema operativo, resolución de la pantalla, procesador, RAM, resolución de la cámara. Ejemplo de documento:

GSM / HSPA / LTE
Dimensions 142.1 x 71.8 x 7.9 mm (5.59 x 2.83 x 0.31 in)
Weight 146 g (5.15 oz)
SIM Optional Dual SIM (Micro-SIM, dual stand-by)
Type Super AMOLED capacitive touchscreen, 16M colors
Size 5.0 inches (~67.5% screen-to-body ratio)
Resolution 720 x 1280 pixels (~294 ppi pixel density)
Multitouch Yes
OS Android OS, v5.1 (Lollipop)
Chipset Qualcomm MSM8916 Snapdragon 410
CPU Quad-core 1.2 GHz Cortex-A53
GPU Adreno 306
Card slot microSD, up to 128 GB
Internal 8 GB, 1.5 GB RAM
Primary 13 MP, 4128 x 3096 pixels, autofocus, LED flash
Features Geo-tagging, touch focus, face detection
Video 1080p@30fps
Secondary 5 MP, LED flash

De ese documento, quiero tener esto:

OS: Android
Display resolution: 720 x 1280
Processor: Quad-core 1.2 GHz Cortex-A53
RAM: 1.5GB
Camera resolution: 13MP, 5MP

Tenga en cuenta que mi documento no siempre será tan bueno, de hecho es uno de el más estructurado documento. ¿Cuál es el nombre del problema que quiero resolver? ¿Es un problema de "reconocimiento de entidades con nombre"?

1voto

user2514608 Puntos 11

Esta tarea puede formularse como un problema de llenado de huecos. Se han utilizado CRFs o RNNs para el modelo. Tiene mucha similitud con el reconocimiento de entidades con nombre. Cualquier cosa que se utilice para el reconocimiento de entidades con nombre probablemente también sirva para rellenar huecos.

0voto

Jonathan Fingland Puntos 26224

No hay mucha literatura sobre el análisis sintáctico de documentos semiestructurados. Puede utilizar el reconocimiento de entidades con nombre, pero todos los modelos preentrenados, como los campos aleatorios condicionales (CRF), no se ajustan a sus necesidades, ya que se centran en personas, organizaciones y otras clases básicas. Construir un conjunto de entrenamiento para su tipo de datos para entrenar tales modelos es muy costoso (sobre todo, consume tiempo). Y si intenta automatizar el proceso de anotación y construcción de su conjunto de entrenamiento, entonces habrá resuelto el problema...

Este problema es realmente no trivial (al menos para resolverlo con un enfoque genérico), y se pasa por alto en la literatura.

Conozco a algunos tipos que están especializados en eso. Sus ejemplos son muy similares a los tuyos. Tal vez puedas enviarles un correo para conocer algunas técnicas para resolver este problema: su sitio web http://www.scriptminer.com/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X