[發明專利]一種基于萬有引力改進的TextRank的新聞關鍵詞提取方法在審
| 申請號: | 201910441723.8 | 申請日: | 2019-05-24 |
| 公開(公告)號: | CN110162592A | 公開(公告)日: | 2019-08-23 |
| 發明(設計)人: | 張靜靜;孫福權;劉冰玉;孔超然 | 申請(專利權)人: | 東北大學 |
| 主分類號: | G06F16/31 | 分類號: | G06F16/31;G06F16/35;G06F16/951;G06F17/27 |
| 代理公司: | 大連東方專利代理有限責任公司 21212 | 代理人: | 李馨 |
| 地址: | 110819 遼寧*** | 國省代碼: | 遼寧;21 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文檔 萬有引力 關鍵詞序列 新聞關鍵詞 新聞數據 預處理 數據預處理 分布計算 概率分布 計算數據 距離計算 模型訓練 時間成本 算法迭代 外部信息 主題模型 詞向量 構建 語料 預設 標注 排序 改進 采集 | ||
本發明提供一種基于萬有引力改進的TextRank的新聞關鍵詞提取方法。本發明方法包括如下步驟:對采集到的新聞數據進行數據預處理;計算數據預處理后的新聞數據中詞與詞之間的共現頻率,并通過CBOW模型訓練詞向量,構建主題模型得到文檔中主題下詞的概率分布和文檔下主題的分布計算每篇文檔下預設詞的主題影響力;通過詞之間的共現頻率、詞在文檔下主題影響力和詞之間的距離計算出詞與詞之間的吸引力,利用TextRank算法迭代計算得到有序的關鍵詞序列,根據排序好的關鍵詞序列得到指定數量的關鍵詞。本發明充分的利用了文檔內部與外部信息,利用該發明提取出的關鍵詞更加準確,客觀。本方法不需要大量的標注語料,節省了大量的人力和時間成本。
技術領域
本發明涉及自然語言處理領域,尤其涉及一種基于萬有引力改進的TextRank的新聞關鍵詞提取方法。
背景技術
我們身處在一個信息爆炸的時代,接收信息方式具有多樣性,包括文本、圖像、音頻等,其中文本信息是信息傳播的重要途徑之一。由于數據的爆炸式增長,手工提取大量文本信息中的內容難上加難,需要大量的勞動力和專業人員才能夠實現對信息的準確提取。那么在這種需求的推動下,高效快速的獲取到文本中的主要信息成為了目前的熱點問題。
為了能在大量的新聞數據中獲取到主要信息內容,研究人員致力于文本分類、文本聚類和文本摘要等研究領域進行探索研究。而這些研究都會涉及到文本處理的基本技術問題--關鍵詞的提取。通過提取到的關鍵詞我們可以了解到文本的核心主題或者主要內容。關鍵詞的準確提取已經成了自然語言處理文本分析的熱點研究問題。關鍵詞提取技術目前應用領域廣泛,特別是在新聞服務領域發揮著重要作用。用戶通過新聞關鍵詞的提取,可以很快了解新聞主題或大致內容,從而判斷文章是否為其感興趣的內容。并且大量研究證明,關鍵詞提取在文本分類、文本摘要提取、文本聚類和信息檢索等方面發揮著重要作用。與此同時,由于文本信息的指數性增長,手動提取已不能滿足需求、需要借助高效的提取方法獲取到準確的、概括性強的關鍵詞。
關鍵詞是對文本的高度概括,通過對新聞文本數據的提取,用戶不僅能準確快速的獲取到新聞主要信息,而且在信息檢索中,可以通過搜索引擎搜索,快速獲取到相關關鍵詞的最相關文本,提高用戶體驗效果。因此關鍵詞提取在新聞領域有著至關重要的作用。
目前現有的關鍵詞提取算法主要有兩大類,分別是基于無監督的學習模式和有監督的學習模式。早期的無監督關鍵詞提取方法主要是訓練一個分類器,判斷所提出的詞是否為關鍵詞,但是這樣得到的關鍵詞它們的重要程度一樣,不具有區分性。基于這種的提取關鍵詞的方法有:決策樹、樸素貝葉斯、最大熵、支持向量機等機器學習方法。事實上,在每篇文檔中每個詞都具有不同的重要性,得到的不具有排序的關鍵詞不具有實用性。為此有人提出用有監督的方法來對關鍵詞進行提取,取得了不錯效果,但是基于有監督的學習需要大量的、高質量的標注語料,需要耗費大量的人力物力和大量時間。所以目前無監督提取關鍵詞的方法是主流方法,其不需要標注大量語料。但是現有的關鍵詞提取精度依舊不是很高。專利號為CN109614626A的《基于萬有引力模型的關鍵詞自動抽取方法》公開了一種萬有引力關鍵詞提取的算法,但是它采用改進的TF-IDF計算詞的質量,其融合單詞位置、詞性、詞長等外部特征。雖然基于TF-IDF統計特征簡單易行,但是該方法忽略了重要的低頻詞和文檔內部的主題分布語義特征。在提取關鍵詞時準確率依舊有待提高。
發明內容
根據上述提出的技術問題,而提供一種充分的考慮文檔中低頻詞和文檔內部主題分布的語義特征的基于萬有引力改進的TextRank的新聞關鍵詞提取方法。本發明采用的技術手段如下:
一種基于萬有引力改進的TextRank的新聞關鍵詞提取方法,包括如下步驟:
對采集到的新聞數據進行數據預處理,獲得用于分析的規整數據;
計算數據預處理后的新聞數據中詞與詞之間的共現頻率,并通過CBOW模型訓練詞向量,然后構建主題模型得到文檔中主題下詞的概率分布和文檔下主題的分布計算每篇文檔下預設詞的主題影響力;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于東北大學,未經東北大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910441723.8/2.html,轉載請聲明來源鉆瓜專利網。





