[發明專利]基于萬有引力模型的關鍵詞自動抽取方法在審
| 申請號: | 201811566766.0 | 申請日: | 2018-12-21 |
| 公開(公告)號: | CN109614626A | 公開(公告)日: | 2019-04-12 |
| 發明(設計)人: | 呂學強;董志安;游新冬 | 申請(專利權)人: | 北京信息科技大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 100192 北*** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 萬有引力 詞語 自動抽取 引力 詞表 位置偏移距離 關鍵詞提取 技術規范 距離計算 客觀反映 模板規則 語義距離 傳統的 數據集 構建 句法 標注 樣本 通用 應用 改進 制定 | ||
本發明涉及一種基于萬有引力模型的關鍵詞自動抽取方法,包括:步驟1)構建通用詞表;步驟2)表示詞語質量;步驟3)計算詞語距離;步驟4)計算詞間引力。本發明分別從詞語的質量表示與距離計算兩方面改進傳統的萬有引力模型,克服了傳統萬有引力模型方法因詞語質量表示單一而無法客觀反映詞語初始重要性的不足,綜合語義距離和依存句法距離的優勢改善了對比方法中依據位置偏移距離計算引力的缺陷,本發明方法在3GPP技術規范和公開數據集上均取得了優于傳統方法的關鍵詞提取效果,無需制定繁瑣的模板規則,也不依賴于標注樣本,可以很好地滿足實際應用的需要。
技術領域
本發明屬于文本處理技術領域,具體涉及一種基于萬有引力模型的關鍵詞自動抽取方法。
背景技術
關鍵詞抽取是信息檢索、文本分類聚類、自動摘要、機器翻譯等自然語言處理任務的基石。目前國內外自動關鍵詞抽取方法大體分為有監督學習方法和無監督學習方法兩大分支。其中,有監督學習方法通常將關鍵詞抽取問題轉化為機器學習中的分類問題,這類方法無一例外地依賴于訓練語料的標注質量和規模,人工成本高,分類結果容易出現過擬合現象,難以滿足實際應用中大規模無標注文本的關鍵詞提取需求。
目前關鍵詞抽取方法多集中于無監督學習領域。近年來,逐漸興起基于萬有引力模型的關鍵詞抽取方法,其本質也是一種基于圖的無監督學習方法。該方法主要利用萬有引力定律對文檔詞匯關系建模,認為單詞對之間引力強度越大則越能概括出文檔重要信息,先將文檔看作由一系列具有不同引力強度的單詞構成的無向網絡圖,圖中每一個頂點由單詞和相應的質量構成,頂點之間的邊表示單詞在一定窗口范圍內滿足共現關系,邊的權重為單詞距離大小,然后由萬有引力公式計算出詞間引力并排序,將引力大小超過閾值的單詞對識別為關鍵詞。現有技術的一種技術方案將無向圖中任意兩個共現節點的頻率看作質量,然后引入dice系數并結合語義距離計算圖節點之間的萬有引力,將引力大小作為節點間邊的權重,最后通過迭代投票機制輸出TopN個關鍵詞。這種方法雖然獨立于語料庫,不依賴于外部文本的數量和類型,但將出現在文檔不同位置處的同一詞匯平等對待,對部分出現在重要位置上的低頻關鍵詞不利,同時,僅用頻率刻畫質量也無法表達詞語語義聚集信息和文檔分布特性對引力大小的影響。現有技術的另一種技術方案是通過詞匯在文檔中出現的頻率和單詞所包含的字符數目體現單詞語義的重要性,其認為一個單詞如果包含了較長的字符集則其與文檔中包含的信息有較高的相關度,由此將單詞的頻率和包含的字符數目看作質量,將單詞在整個文本中的相對位置偏移量作為詞間距離。這種方法雖然對文檔中相對位置偏移量較小的復雜詞匯有利,但對于文檔中蘊含豐富信息量的簡單縮寫詞不公平,同時相對位置偏移量也無法體現語義因素對詞間引力的影響。
發明內容
針對上述現有技術中存在的問題,本發明的目的在于提供一種可避免出現上述技術缺陷的基于萬有引力模型的關鍵詞自動抽取方法。
為了實現上述發明目的,本發明提供的技術方案如下:
一種基于萬有引力模型的關鍵詞自動抽取方法,包括:
步驟1)構建通用詞表;步驟2)表示詞語質量;步驟3)計算詞語距離;步驟4)計算詞間引力。
進一步地,在步驟1)中,結合信息熵原理引入詞頻-文檔分布熵的概念自動構建通用詞表,將單詞w看作隨機變量,詞頻-文檔分布熵是指單詞w在文檔集中分布狀態的不確定性度量。
進一步地,在步驟1)中,設包含n個文本的文檔集表示為D={d1,d2...di...dn},記單詞w的詞頻-文檔分布熵為H(w),則H(w)計算公式為
其中P(w,di)為單詞w在文檔di中出現的概率,根據最大似然估計法,P(w,di)計算公式為
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于北京信息科技大學,未經北京信息科技大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201811566766.0/2.html,轉載請聲明來源鉆瓜專利網。





