[發明專利]一種實體詞表示學習方法、裝置、計算機設備及存儲介質在審
| 申請號: | 202010890302.6 | 申請日: | 2020-08-29 |
| 公開(公告)號: | CN111967252A | 公開(公告)日: | 2020-11-20 |
| 發明(設計)人: | 李夏昕;孫璨;張永平 | 申請(專利權)人: | 深圳唄佬智能有限公司 |
| 主分類號: | G06F40/279 | 分類號: | G06F40/279;G06F40/35;G06F16/951 |
| 代理公司: | 深圳市中融創智專利代理事務所(普通合伙) 44589 | 代理人: | 葉垚平;李立 |
| 地址: | 518000 廣東省深圳市南山區粵海*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 實體詞 表示 學習方法 裝置 計算機 設備 存儲 介質 | ||
1.一種實體詞表示學習方法,其特征在于,包括:
爬取互聯網上公開的jd數據,以獲取目標實體詞t;
將目標實體詞t表示成和目標實體詞t共現的實體詞所組成的文檔;
用構建的文檔訓練tf-idf模型;
將文檔在tf-idf模型下的向量表示做L1歸一,并做維度排序和維度截斷;
基于生成向量的維度值做采樣,以構建embedding訓練語料;
用傳統embedding模型在構建的語料上做訓練,得到表示模型。
2.根據權利要求1所述的學習方法,其特征在于,所述用構建的文檔訓練tf-idf模型,包括tf值的計算;所述tf值的計算包括:term frequency=ft,d/S或term frequency=Log(1+ft,d);其中ft,d是實體詞t在jt_doc d中出現的頻率,S是jd_doc d中所有實體詞的總數。
3.根據權利要求1所述的學習方法,其特征在于,所述用構建的文檔訓練tf-idf模型,還包括idf值的計算,所述tf值采用歸一化的方式計算。
4.根據權利要求2所述的學習方法,其特征在于,所述idf值的計算包括:inversedocument frequency=Log(N/nt)或inverse document frequency smooth=Log(N/(1+nt))+1;其中N是集合M中元素的個數,nt是集合M中包含實體詞t的文檔的個數。
5.根據權利要求1所述的學習方法,其特征在于,所述將文檔在tf-idf模型下的向量表示做L1歸一并做維度排序和維度截斷,包括:
訓練的tf-idf模型對M中的每個jt_doc計算其在向量空間中的tfidf向量V;
對V中的每個向量做L1 normaLization,使得一個向量V的所有維度值都大于或等于0.0,且和為1.0;
對V中的每個向量的維度按照其對應的tf-idf值做降序排序;
將V中已經做了降序排序的向量V,從原始長度L1,截斷到統一的新長度L2。
6.根據權利要求2所述的學習方法,其特征在于,所述傳統embedding模型,包括:word2vector、gLove、fasttext中的任一種。
7.一種實體詞表示裝置,其特征在于,包括:
數據獲取單元,用于爬取互聯網上公開的jd數據,以獲取目標實體詞t;
文檔組成單元,用于將目標實體詞t表示成和目標實體詞t共現的實體詞所組成的文檔;
構建tf-idf模型單元,用構建的文檔訓練tf-idf模型;
歸一單元,將文檔在tf-idf模型下的向量表示做L1歸一,并做維度排序和維度截斷;
語料單元,用于基于生成向量的維度值做采樣,以構建embedding訓練語料;
模型訓練單元,采用傳統embedding模型在構建的語料上做訓練,得到表示模型。
8.一種計算機設備,其特征在于,所述計算機設備包括存儲器和處理器;
所述存儲器用于存儲計算機程序;
所述處理器,用于執行所述計算機程序并在執行所述計算機程序時實現如權利要求1至7中任一項所述的學習方法。
9.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時使所述處理器實現如權利要求1至7中任一項所述的學習方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于深圳唄佬智能有限公司,未經深圳唄佬智能有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010890302.6/1.html,轉載請聲明來源鉆瓜專利網。





