[發明專利]一種基于圖模型的關鍵詞提取方法及裝置有效
| 申請號: | 201710208956.4 | 申請日: | 2017-03-31 |
| 公開(公告)號: | CN106970910B | 公開(公告)日: | 2020-03-27 |
| 發明(設計)人: | 王亮 | 申請(專利權)人: | 北京奇藝世紀科技有限公司 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/30 |
| 代理公司: | 北京柏杉松知識產權代理事務所(普通合伙) 11413 | 代理人: | 馬敬;項京 |
| 地址: | 100080 北京市海淀*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 基于 模型 關鍵詞 提取 方法 裝置 | ||
1.一種基于圖模型的關鍵詞提取方法,其特征在于,所述方法包括:
獲取待處理文本,并對所述待處理文本進行分詞,得到所述待處理文本對應的候選關鍵詞;
在詞向量模型中查找所述候選關鍵詞對應的詞向量,所述詞向量模型包括所述候選關鍵詞的詞向量;
根據所述詞向量構建所述候選關鍵詞的詞相似度矩陣;
根據所述候選關鍵詞的詞相似度矩陣對所述候選關鍵詞進行排序,提取所述待處理文本的關鍵詞;
所述根據所述候選關鍵詞的詞相似度矩陣對所述候選關鍵詞進行排序,包括:
根據PageRank算法計算所述候選關鍵詞的詞相似度矩陣,得到所述候選關鍵詞的對應的PageRank值;
根據所述PageRank值對所述候選關鍵詞進行排序,得到所述候選關鍵詞的重要程度;
根據所述重要程度,提取所述待處理文本的關鍵詞;
所述根據PageRank算法計算所述候選關鍵詞的詞相似度矩陣,包括:
根據所述詞相似度矩陣的階數,確定所述PageRank算法的初始值;
根據所述初始值和所述詞相似度矩陣,計算所述候選關鍵詞的初始特征向量值;
根據公式:
pt=MTpt-1
計算所述候選關鍵詞的特征向量值,其中,在t=1時,則p1表示所述初始特征向量值,p0表示所述初始值,pt表示所述詞相似度矩陣在第t步的特征向量值,pt-1表示所述詞相似度矩陣在第t-1步的特征向量值,M表示所述候選關鍵詞的詞相似度矩陣,MT表示所述詞相似度矩陣的轉置,t表示計算的步數,t的取值大于或等于1;
當所述第t步的特征向量值與所述第t-1步的特征向量值的范數小于所述PageRank算法的誤差容忍度時,所述第t步的特征向量值為所述候選關鍵詞的對應的PageRank值。
2.根據權利要求1所述的方法,其特征在于,所述根據所述詞向量構建所述候選關鍵詞的詞相似度矩陣,包括:
根據公式:
計算所述候選關鍵詞之間對應的詞向量夾角的余弦值,其中,θ表示所述候選關鍵詞之間的向量的夾角,x1k表示其中一個候選關鍵詞n維空間中對應的向量的特征值,x2k表示其中另一個候選關鍵詞n維空間中對應的向量的特征值,n表示向量空間的維度;
根據所述詞向量夾角的余弦值,構建所述候選關鍵詞相似度矩陣。
3.根據權利要求1至2任一項所述的方法,其特征在于,所述獲取待處理文本,并對所述待處理文本進行分詞,得到所述待處理文本對應的候選關鍵詞,包括:
獲取待處理文本,并對所述待處理文本進行分詞,得到停用詞和指定詞性的詞,所述停用詞至少包括介詞、助詞、連詞、感嘆詞,所述指定詞性的詞至少包括名詞、動詞、形容詞;
過濾掉所述停用詞,得到所述指定詞性的詞,所述指定詞性的詞為所述待處理文本對應的候選關鍵詞。
4.根據權利要求1至2任一項所述的方法,其特征在于,所述詞向量是通過word2vec訓練得到的。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京奇藝世紀科技有限公司,未經北京奇藝世紀科技有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710208956.4/1.html,轉載請聲明來源鉆瓜專利網。





