[發明專利]一種實體詞表示學習方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010890302.6 | 申請日: | 2020-08-29 |
| 公開(公告)號: | CN111967252A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 李夏昕;孫璨;張永平 | 申請(專利權)人: | 深圳唄佬智能有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/35;G06F16/951 |
| 代理公司: | 深圳市中融創智專利代理事務所(普通合伙) 44589 | 代理人: | 葉垚平;李立 |
| 地址: | 518000 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體詞 表示 學習方法 裝置 計算機 設備 存儲 介質 | ||
本申請具體公開了一種實體詞表示學習方法、裝置、計算機設備及存儲介質,該方法包括爬取互聯網上公開的jd數據,以獲取目標實體詞t;將目標實體詞t表示成和目標實體詞t共現的實體詞所組成的文檔;用構建的文檔訓練tf?idf模型;將文檔在tf?idf模型下的向量表示做L1歸一,并做維度排序和維度截斷;基于生成向量的維度值做采樣,以構建embedding訓練語料;用傳統embedding模型在構建的語料上做訓練,得到表示模型。
技術領域
本申請涉及語言處理技術領域,尤其涉及一種基于優化權重采樣的人力資源領域實體詞表示學習方法、裝置、計算機設備及存儲介質。
背景技術
現有技術對實體詞進行表示時,通常是直接采用和目標實體詞T一起在文本中共現的上下文來作為T的表示。比如,當T是一份JD中的job titLe時。通常的做法有兩種:
1、用jd正文中的實體詞來構建向量空間模型,用tf-idf值或其各變種算法來計算向量的各個維度值,然后將一個job titLe表示為向量空間中的一個向量。
2、把目標實體詞T和其上下文context詞一起組成句子,構建embedding模型,然后用word2vector,gLove,fasttext等embedding方法訓練模型,最后將job titLe表示為embedding空間中的一個向量。
以上所述的兩種方法最終目標都是將實體詞表示成固定空間中的一個向量,用向量可以實現兩個實體詞的相似度計算;或者給定是一個實體詞,返回和這個實體詞在語義上最相似的topn個實體詞。
上述的向量空間模型和embedding模型和embedding模型都存在自己固有的缺陷。
向量空間模型計算出來的向量維度通常很高,而且非常稀疏,兩個向量之間的相似度計算操作比較緩慢,在實際應用場景中通常需要將向量的維度數量限定在幾百的量級,才能滿足線上系統的計算效率要求。但是限定維度意味著丟棄有用的信息,對實體的詞的表示效果也會打折扣。同時,向量空間模型中的實體詞向量通常來說任一個維度的值都有可能出現較高的方差,這會導致兩個向量如果有數個維度的值不一樣,他們的相似度就會偏低。這與人力資源領域中的數字化應用層面要求不符合。不同實體詞之間的差異,用向量空間中的向量來計算時,其變化曲線的走勢也非常震蕩,不夠線性。
用embedding模型計算出來的向量通常是低維稠密向量,計算效率很高。而且不同實體之間的相似度的差異值也比較線性、平滑、具有可比較性。但是各種embedding模型的基本原理都是“一個詞的語義由文本中這個詞附近的上下文詞來描述”。這個基本原理會導致,如果原文本中有一些長尾的低頻詞或者錯詞,如果這樣的詞每次出現的時候都和目標詞在同一個上下文窗口中共現,那么這些低頻詞或者錯詞會和目標詞的相似度非常高。這會導致整個embedding空間中的語義偏移,從而使目標詞的表示向量的語義準確性降低。
發明內容
本申請提供了一種實體詞表示學習方法,旨在解決上述問題。
第一方面,本申請提供了一種人力資源領域實體詞表示學習方法,所述方法包括:
爬取互聯網上公開的jd數據,以獲取目標實體詞t;
將目標實體詞t表示成和目標實體詞t共現的實體詞所組成的文檔;
用構建的文檔訓練tf-idf模型;
將文檔在tf-idf模型下的向量表示做L1歸一,并做維度排序和維度截斷;
基于生成向量的維度值做采樣,以構建embedding訓練語料;
用傳統embedding模型在構建的語料上做訓練,得到表示模型。
第二方面,本申請還提供了一種實體詞表示裝置,所述裝置包括:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳唄佬智能有限公司,未經深圳唄佬智能有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010890302.6/2.html,轉載請聲明來源鉆瓜專利網。





