[發明專利]一種改進的TextRank關鍵詞提取方法及裝置有效
| 申請號: | 202110201095.3 | 申請日: | 2021-02-23 |
| 公開(公告)號: | CN112948527B | 公開(公告)日: | 2023-06-16 |
| 發明(設計)人: | 趙娜;楊燕;王瑩港;郁湧;王劍;康雁;王鑫鍇;張強薦;胡盛;柴焰明;龍鎮;文俊杰;馬偉云 | 申請(專利權)人: | 云南大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F40/284 |
| 代理公司: | 北京弘權知識產權代理有限公司 11363 | 代理人: | 逯長明;許偉群 |
| 地址: | 650000 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 改進 textrank 關鍵詞 提取 方法 裝置 | ||
本申請公開了一種改進的TextRank關鍵詞提取方法及裝置。在該方法中,首先構建文本的詞共現網絡,接著基于詞共現網絡并引入節點的度中心性和聚類系數兩項復雜網絡統計特征,得到節點的初始權重。然后依據相鄰節點對節點的重要程度將初始權重分配給兩節點之間的連邊,確定連邊權重,從而實現對連邊加權,確定每個節點的重要性分值。進一步引入位置系數來對節點的重要性分值進行調整,確定每個節點的最終權重。最后依據每個節點的最終權重對節點進行排序后,確定文本的關鍵詞。本申請通過節點本身的度中心性和聚類系數兩項特征為連邊加權,并結合節點的位置特征實現文本的關鍵詞提取,能夠有效提高關鍵詞提取的準確率。
技術領域
本申請涉及自然語言處理技術領域,尤其涉及一種改進的TextRank關鍵詞提取方法及裝置。
背景技術
文本關鍵詞是指能對文本內容進行精確概括,反映作者寫作意圖的重要詞語,文本關鍵詞不僅可以概況文本的主題,還可以反映文本的主要內容和情感傾向。因此,準確、高效的文本關鍵詞提取對于文本聚類、文本摘要抽取和信息檢索都至關重要。
傳統的TextRank算法是一種基于圖排序的關鍵詞提取算法,它利用文本候選關鍵詞在窗口中的共現關系,將相關聯的候選關鍵詞之間建立連邊,構建詞共現網絡,通過公式迭代計算得到詞共現網絡中每個節點(節點是指詞共現網絡中的候選關鍵詞)的權重,從而完成節點的排序,提取出文本的關鍵詞。該算法僅利用文本本身的信息就能完成關鍵詞提取,無需預先對數據進行大量訓練,具有實現簡單、語言相關性弱等優點。
但是傳統的TextRank算法在進行關鍵詞提取時,將詞共現次數作為連邊權重,卻忽略了候選關鍵詞本身的重要性,使得關鍵詞提取的準確率較低。
發明內容
本申請公開一種改進的TextRank關鍵詞提取方法及裝置,用于解決現有技術中,傳統的TextRank算法在進行關鍵詞提取時,將詞共現次數作為連邊權重,卻忽略了候選關鍵詞詞本身的重要性,使得關鍵詞提取的準確率較低的技術問題。
本申請第一方面公開了一種改進的TextRank關鍵詞提取方法,包括:
獲取初始文本,并對所述初始文本進行預處理,確定候選關鍵詞總集;所述預處理是指將所述初始文本劃分為多個句子,對任一句子進行分詞、詞性標注、詞性過濾以及去停用詞處理后,確定任一句子對應的候選關鍵詞集;所述候選關鍵詞總集包括多個候選關鍵詞集;
根據候選關鍵詞總集,構建詞共現網絡;
根據所述詞共現網絡,獲取第一節點及第二節點,所述第一節點為任一節點,所述第二節點為所述第一節點任一相鄰的節點;
獲取所述第一節點的度中心性,以及,獲取所述第二節點的度中心性;
獲取所述第一節點的聚類系數,以及,獲取所述第二節點的聚類系數;
根據所述第一節點的度中心性、所述第一節點的聚類系數和預設的可調節參數,確定所述第一節點的初始權重;以及,根據所述第二節點的度中心性、所述第二節點的聚類系數和所述可調節參數,確定所述第二節點的初始權重;
根據所述詞共現網絡,獲取節點總數、第一相鄰節點的集合、第二相鄰節點的集合,所述第一相鄰節點是指與所述第一節點相鄰的節點,所述第二相鄰節點是指與所述第二節點相鄰的節點;
根據所述第一節點的初始權重、所述第二節點的初始權重、所述第一相鄰節點的集合和所述第二相鄰節點的集合,確定所述第一節點與所述第二節點之間的連邊權重;
根據所述節點總數、預設的阻尼系數、所述第一相鄰節點的集合、所述第一節點與所述第二節點之間的連邊權重和所述第二節點的初始權重,確定所述第一節點的重要性分值;
根據所述第一節點的重要性分值和預設的位置系數,確定所述第一節點的最終權重;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于云南大學,未經云南大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110201095.3/2.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種培育金黃色游離有核珍珠的方法
- 下一篇:一種重金屬汞吸附劑及其制備方法





