9 votos

¿Cómo se pueden clasificar, extraer información de descripciones de puestos de trabajo?

Tengo un montón de descripciones de puestos de trabajo introducidos por los usuarios. Hay todo tipo de errores y malas de datos. yo.e:

...
tulane univ hospital
tulip
tullett prebon
... 
weik investment
weill cornell university medical center
weis
weiss waldee hohimer dds
welded constrction l.p.
welder
welder
welder
...

¿Qué medidas tomaría usted para 'aumentar' este con valores relacionados con el trabajo los conocimientos ?

La mejor que se me ocurre es darle a wolfram alpha. Pero me pregunto si hay otros accesible técnicas que puede utilizar usando python.

Actualización: Me enteré de que no es un Estándar de Clasificación profesional, realmente me gustaría coincidir con el nombre de la SOC y el SOC a un rango de los salarios promedio.

5voto

Andy Puntos 10250

Una posible manera de comenzar es hacer uso de Python es el Lenguaje Natural de Kit de Herramienta (NLTK) que puede ser utilizado para el texto y el tema de análisis, pero también tiene funciones útiles para extraer ciertas palabras de las cadenas. Por ejemplo, se pueden extraer a partir de la descripción de trabajo de las palabras "médico", "hospital", etc. con el fin de encontrar amplios sectores y ocupaciones. Debido a las faltas de ortografía y la calidad de los datos no creo que se puede hacer en un sistema totalmente automatizado de moda que usted puede llegar a la codificación de los SOCs de sí mismo. No obstante, teniendo la amplia ocupaciones y sectores de esta manera ya hace la tarea mucho más fácil.

Si usted está interesado en el procesamiento del lenguaje natural/texto y tema de análisis y minería de texto más allá de esto, bastante barato pero útil libro es por Bird et al. (2009) "Procesamiento de Lenguaje Natural con Python".

Los títulos ocupacionales se han vinculado a los salarios por David Autor. Vinculados a datos de la Encuesta de Población Actual (los datos que se utilizan para producir, además de Estados Unidos las cifras de desempleo) para el SOC títulos a partir de la cual también se puede obtener de los salarios de cada ocupación. A partir de estos se puede fácilmente calcular la media de los salarios en cada ocupación y usted puede incluso tener una idea acerca de la varianza (dentro de los ingresos profesionales de la desigualdad) en cada ocupación. David hace que sus conjuntos de datos disponibles en su archivo de datos en el MIT.

2voto

Chris Puntos 170

He tenido éxito en el uso Latente de Dirichlet Asignación (LDA) para encontrar la latente temas o "temas" en los datos textuales. LDA creará $k$ temas de términos (palabras) de su corpus de descripciones de puestos de trabajo. Cada descripción de puesto de trabajo se da una probabilidad de que contenga cada una de las $k$ temas. Por ejemplo, si pidió LDA para clasificar un corpus en 3 temas, una descripción de trabajo para un diseñador gráfico puede tener el 80% "gráfico de photoshop illustrator...", el 18% "HTML CSS JS...", y el 2% "Java Spring orientada a objetos...". Hay mucho para leer sobre la LDA, sólo tienes que buscar o iniciar con el Quora pregunta.

Mi análisis con LDA fue en R pero por supuesto, hay un paquete de Python , aunque nunca he utilizado en mi propio trabajo.

Usted podría considerar la posibilidad de seleccionar un número del tema que se corresponde con el número de ocupaciones en el SOC. Una vez que haya generado los temas para que las examine y vea si usted puede encontrar lazos significativos para el SOC y ajustar el número del tema en consecuencia, hasta que esté satisfecho.

Para hacer el salario estimado para cada puesto de trabajo descripción considerar la ponderación de cada uno de sueldo con el tema de las probabilidades. Por ejemplo, si la descripción de un trabajo tenían un 80% de probabilidad de ser un desarrollador de software SOC peso de salario por .80 y los temas restantes de la misma manera. Si que crea mucho ruido acaba de establecer una frecuencia de corte (tal vez 20%) y retirar el resto de la tema de los pesos del salario estimado.

Para las faltas de ortografía siempre se puede atacar con un corrector ortográfico y ver cómo se compara con los resultados sin la herramienta. También asegúrese de emplear el estándar de técnicas de PNL, tales como signos de puntuación y eliminación de palabra derivada previo a la ejecución de la LDA.

1voto

Jeff Hengesbach Puntos 1639

Esos no son tanto las descripciones de trabajo como títulos de trabajo. Si usted tuvo descripciones como en este ejemplo de la SOC definiciones, se puede utilizar un tema como modelo sugerido por Chris:

1011 de Ejecutivos de Determinar y formular políticas y proporcionar la dirección general de las empresas o del sector público y privado las organizaciones dentro de las directrices establecidas por el consejo de administración o similares consejo de administración. Planifican, dirigen o coordinan los operativos actividades en el más alto nivel de dirección con la ayuda de subordinado a los ejecutivos y personal de los administradores.

En la ausencia de formato largo del texto, se puede utilizar un clasificador Bayesiano ingenuo (ya que usted tiene un problema de clasificación) que utiliza la red social como una característica, ya que las personas son propensos a trabajar en los mismos tipos de puestos de trabajo como a sus amigos. Otra característica podría ser la cadena de similitud con el complemento Directo Archivo de Título (creo que esta base de datos es justo lo que necesita), que proporciona una correspondencia entre los títulos del trabajo y de la SOC.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X