[發明專利]一種基于Doc2vec的相似實體挖掘方法在審
| 申請號: | 201711216768.2 | 申請日: | 2017-11-28 |
| 公開(公告)號: | CN107832306A | 公開(公告)日: | 2018-03-23 |
| 發明(設計)人: | 李石君;劉杰;楊濟海;李號號;余偉;余放;李宇軒 | 申請(專利權)人: | 武漢大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 武漢科皓知識產權代理事務所(特殊普通合伙)42222 | 代理人: | 魯力 |
| 地址: | 430072 湖*** | 國省代碼: | 湖北;42 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 doc2vec 相似 實體 挖掘 方法 | ||
1.一種基于Doc2vec的相似實體挖掘方法,其特征在于,包括以下步驟:
步驟1,對通用語料進行分詞,使用Skip-gram模型計算詞向量,該模型的目標函數是
其中,p(wt+j|wt)表示在文本中,已知位置t的詞語是wt時,位置t+j的詞語是wt+j的后驗概率,通過softmax函數求得
其中,V表示所有詞語組成的詞匯表,表示詞語wi在嵌入層的向量表示,為其轉置,表示詞語wi的在輸出層的向量表示;使用Adam優化器對目標函數進行迭代優化,使用hierarchical softmax方法加速模型的訓練;
步驟2,對實體描述文檔進行分詞與詞性標注,并使用TF-IDF算法計算文檔關鍵詞及權重,詞語wi在文檔dj中的權重
weighti,j=TFi,j×IDFi
其中,TFi,j表示詞頻,即詞語i在文檔j中的出現的次數,DFi表示文檔頻率,即包含詞語i的文檔的個數,IDF為DF的對數的倒數
通過詞語在文檔中的位置positioni,j與詞語詞性POS對權重進行修正
weight′i,j=weighti,j×positioni,j×POS
計算出每篇文檔中每個詞的權重weight′i,j后,對權重按從大到小排序,取topK個詞作為文檔關鍵詞;
步驟3,根據步驟1中詞向量與步驟2中文檔關鍵詞及權重,計算文檔向量并進行歸一化,其中,文檔向量的值由其topK個關鍵詞集合Keydj中詞語的向量加權求得
對文檔向量進行歸一化基于以下公式:
上式中與其轉置與相乘得到該向量的長度,用該向量除以其長度得到長度為1且方向與之前相同的歸一化之后的文檔向量
步驟4,使用文檔向量,進行相似實體挖掘,實體的相似性通過實體對應的文檔向量的歐式距離表示,向量a與向量b的歐式距離為
(a-b)T(a-b)
使用以上的歐式距離計算公式,文檔di與dj的歐式距離為
的模為1,因此distance(di,dj)在[0,2]間,通過歐式距離計算出位于[0,1]之間的相似性
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于武漢大學,未經武漢大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201711216768.2/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:用于生成信息的方法和裝置
- 下一篇:基于無向圖與單層神經網絡的中文分詞方法





