[發明專利]一種關鍵詞提取方法及裝置有效
| 申請號: | 201710604469.X | 申請日: | 2017-07-11 |
| 公開(公告)號: | CN109255118B | 公開(公告)日: | 2023-08-08 |
| 發明(設計)人: | 張春榮 | 申請(專利權)人: | 普天信息技術有限公司 |
| 主分類號: | G06F40/284 | 分類號: | G06F40/284;G06F40/211;G06F16/953 |
| 代理公司: | 北京路浩知識產權代理有限公司 11002 | 代理人: | 王慶龍;曹杰 |
| 地址: | 100080 北京*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 提取 方法 裝置 | ||
1.一種關鍵詞提取方法,其特征在于,所述方法包括:
獲取網頁文本信息,對所述網頁文本信息預先處理,獲得候選關鍵詞的序列;
根據所述候選關鍵詞的序列構建所述候選關鍵詞圖,根據所述候選關鍵詞圖運算獲得所述候選關鍵詞的序列中每個候選關鍵詞與其他候選關鍵詞之間的相似度值,并用所述相似度值作為每個候選關鍵詞的初始權重值;
根據各候選關鍵詞的初始權重值,運算獲得各候選關鍵詞對應的收斂權重值,對各候選關鍵詞對應的收斂權重值進行大小值排序,根據各候選關鍵詞的收斂權重值的大小值排序,提取各候選關鍵詞中所述網頁文本信息的目標關鍵詞;
其中,所述根據各候選關鍵詞的初始權重值,運算獲得各候選關鍵詞對應的收斂權重值具體包括:
根據注意力機制利用如下公式迭代計算獲得所述各候選關鍵詞的收斂權重值;
所述收斂權重值的計算公式為:
其中,
Vi為第i個候選關鍵詞;
Vj為第j個候選關鍵詞;
WS(Vi)為第i個候選關鍵詞的收斂權重值;
d為阻尼系數,取值范圍為0到1,代表候選關鍵詞序列中某一特定候選關鍵詞指向其他候選關鍵詞的概率,一般取值為0.85;
In(Vi)為指向第i個候選關鍵詞的候選關鍵詞的集合;
Out(Vi)為第i個候選關鍵詞指向的候選關鍵詞的集合;
ωji為候選關鍵詞的序列中第i個候選關鍵詞與第j個候選關鍵詞的相似度值Sim(ei,fj),并用所述相似度值作為第i個候選關鍵詞與第j個候選關鍵詞的初始權重值;
ei為第i個候選關鍵詞的詞向量表示;
fj為第j個候選關鍵詞的詞向量表示;
ωjk為候選關鍵詞的序列中第i個候選關鍵詞與第k個候選關鍵詞的相似度值Sim(ek,fj),并用所述相似度值作為第i個候選關鍵詞與第k個候選關鍵詞的初始權重值;
kw,i的值為所述候選關鍵詞圖中轉移矩陣R|V|x2b的元素;
2b為長度為2b的窗口,2b表示窗口大小,即最多共線2b個候選關鍵詞;
|V|為候選關鍵詞的數值;
αji為候選關鍵詞的序列中第i個候選關鍵詞與第j個候選關鍵詞之間注意力的值,αji=αij;
所述注意力αij計算公式為:
其中,
kw,i為轉移矩陣R|V|x2b中第w行第i列的元素值;
expkw,i為以常數e為底的指數函數,常數e的值約為2.718282;
Si為偏置量,窗口固定后自動獲取;
所述初始權重值ωji=Sim(ei,fj)計算公式為:
2.根據權利要求1所述的方法,其特征在于,所述對所述網頁文本信息預先處理具體包括:
按照完整句子分割所述網頁文本信息,對所述完整句子進行分詞和詞性標注,過濾停用詞和詞性,保留所述候選關鍵詞。
3.根據權利要求1所述的方法,其特征在于,所述根據所述候選關鍵詞的序列構建所述候選關鍵詞圖,根據所述候選關鍵詞圖運算獲得所述候選關鍵詞的序列中每個候選關鍵詞與其他候選關鍵詞之間的相似度值,并用所述相似度值作為每個候選關鍵詞的初始權重值具體包括:
根據詞向量word2VEC算法的連續詞袋模型CBOW對各候選關鍵詞進行k維詞向量表征,通過所述詞向量計算所述候選關鍵詞的序列中每個候選關鍵詞與其他候選關鍵詞之間的相似度值,即余弦夾角獲得各候選關鍵詞的初始權重值;
其中,k的值為所述候選關鍵詞圖中轉移矩陣R的元素。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于普天信息技術有限公司,未經普天信息技術有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201710604469.X/1.html,轉載請聲明來源鉆瓜專利網。





