[發明專利]一種關鍵詞提取方法、計算設備及可讀存儲介質有效
| 申請號: | 202010941205.5 | 申請日: | 2020-09-09 |
| 公開(公告)號: | CN111985217B | 公開(公告)日: | 2022-08-02 |
| 發明(設計)人: | 李拓航;遲令;李宏圖;孫成宇;李帥;胡亮 | 申請(專利權)人: | 吉林大學 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F40/30;G06N3/04 |
| 代理公司: | 北京思睿峰知識產權代理有限公司 11396 | 代理人: | 孟玉潔;趙愛軍 |
| 地址: | 130012 吉*** | 國省代碼: | 吉林;22 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 關鍵詞 提取 方法 計算 設備 可讀 存儲 介質 | ||
1.一種關鍵詞提取方法,在計算設備中執行,包括:
獲取待提取關鍵詞的文本,所述文本包括多個候選詞;
對于每一個候選詞:
分別確定該候選詞與其他候選詞的相似度,將該候選詞與其他候選詞的相似度的和作為該候選詞的覆蓋率;
根據該候選詞在所述文本中的位置來確定該候選詞的位置特征值:
確定該候選詞的主題概率分布,將概率的最大值作為該候選詞的語義多樣性;
根據所述覆蓋率、位置特征值、語義多樣性來確定該候選詞的綜合特征值;
將綜合特征值最大的預設數量個候選詞作為所述文本的關鍵詞;
其中,候選詞的綜合特征值按照以下步驟確定:
分別將候選詞的覆蓋率、位置特征值、語義多樣性進行歸一化;
根據歸一化后的覆蓋率和語義多樣性來確定候選詞的語義特征值;
根據所述語義特征值和歸一化后的位置特征值來確定候選詞的綜合特征值。
2.如權利要求1所述的方法,其中,所述文本為英文文本,所述方法還包括:
刪除所述文本中的停用詞,將所述文本中剩余的詞作為候選詞。
3.如權利要求1或2所述的方法,其中,候選詞之間的相似度按照以下步驟確定:
采用詞向量模型來確定候選詞的詞向量;
將兩個候選詞的詞向量的余弦相似度作為這兩個候選詞的相似度。
4.如權利要求3所述的方法,其中,所述詞向量模型包括依次相連的輸入層、隱藏層和輸出層,
所述采用詞向量模型來確定候選詞的詞向量的步驟包括:
將所述文本中的候選詞與其上下文詞所組成的詞對作為訓練樣本,訓練所述詞向量模型,以得到所述隱藏層的權重矩陣,所述權重矩陣的行的數量為所述文本包括的候選詞的數量,列的數量為預設的詞向量維數;
將所述權重矩陣中的每一個行向量作為相應候選詞的詞向量。
5.如權利要求1或2所述的方法,其中,候選詞的位置特征值為候選詞在所述文本中出現的各個位置順序的倒數之和。
6.如權利要求1或2所述的方法,其中,候選詞的主題概率分布按照以下步驟確定:
將所述文本輸入預設的主題分類模型,以便所述主題分類模型輸出所述文本所屬的主題集合,以及各候選詞屬于所述主題集合中的每個主題的概率;
候選詞屬于所述主題集合中的每個主題的概率組成該候選詞的主題概率分布。
7.如權利要求1所述的方法,其中,候選詞的語義特征值按照以下公式計算:
其中,Ei、Ci、Di分別為第i個候選詞的語義特征值、歸一化后的覆蓋率、歸一化后的語義多樣性,λ1、λ2分別為覆蓋率、語義多樣性的權重,V為候選詞的數量,Nzi為第i個候選詞所屬的主題zi所包括候選詞的數量,候選詞所屬的主題為其主題概率分布中概率最大的主題。
8.如權利要求1所述的方法,其中,候選詞的綜合特征值按照以下公式計算:
其中,Si、Ei、Pi分別為第i個候選詞的綜合特征值、語義特征值、歸一化后的位置特征值,λ3、λ4分別為語義特征值、位置特征值的權重。
9.一種計算設備,包括:
至少一個處理器和存儲有程序指令的存儲器;
當所述程序指令被所述處理器讀取并執行時,使得所述計算設備執行如權利要求1-8中任一項所述的關鍵詞提取方法。
10.一種存儲有程序指令的可讀存儲介質,當所述程序指令被計算設備讀取并執行時,使得所述計算設備執行如權利要求1-8中任一項所述的關鍵詞提取方法。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于吉林大學,未經吉林大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010941205.5/1.html,轉載請聲明來源鉆瓜專利網。





