[發明專利]一種多特征融合的關鍵詞提取方法在審
| 申請號: | 201910328467.1 | 申請日: | 2019-04-23 |
| 公開(公告)號: | CN110188344A | 公開(公告)日: | 2019-08-30 |
| 發明(設計)人: | 高楠;李利娟;李偉;祝建明 | 申請(專利權)人: | 浙江工業大學 |
| 主分類號: | G06F17/27 | 分類號: | G06F17/27;G06K9/62 |
| 代理公司: | 杭州斯可睿專利事務所有限公司 33241 | 代理人: | 王利強 |
| 地址: | 310014 浙江省*** | 國省代碼: | 浙江;33 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 候選關鍵詞 關鍵詞組 多特征融合 關鍵詞提取 文本 詞性 決策樹分類模型 詞頻 關鍵詞短語 關鍵詞序列 詞頻信息 分類算法 機器學習 結果評估 模型預測 權重信息 屬性信息 特征屬性 信息計算 區分度 新文本 準確率 權重 詞語 跨度 篩選 分類 概率 統計 | ||
一種多特征融合的關鍵詞提取方法,首先根據文本詞性和詞頻信息篩選候選關鍵詞,統計候選關鍵詞的多種特征屬性,訓練基于決策樹分類模型,將新文本中的候選關鍵詞的屬性信息輸入模型預測出文本的關鍵詞序列,然后進行n?gram連接得到關鍵詞組,最后取權重最高的topK個關鍵詞或關鍵詞組進行結果評估。本發明可以全面的考慮關鍵詞在文本中的詞頻、位置、跨度、詞性、詞語的區分度等信息,并結合機器學習分類算法得到分類的概率值,最后結合關鍵詞的權重信息和n?gram信息計算關鍵詞組的最終得分。可以有效的提取關鍵詞和關鍵詞短語,相較于現有的方法在準確率上有一定的提升。
技術領域
本發明涉及一種基于多特征融合的關鍵詞提取方法,特別是針對學術摘要文本的關鍵詞提取。利用中文文本分詞工具對文本進行分詞,然后再統計文本詞語的多種屬性特征,將關鍵詞提取看作一個二分類問題利用機器學習分類模型訓練關鍵詞分類器,涉及概率模型,語言模型,機器學習等領域,具體涉及基于機器學習建模領域。
背景技術
隨著學術研究成果的不斷積累,論文庫越來越大,如何在海量的學術文章中準確的找到領域相關的文章是一個重要的技術要求。關鍵詞提取能夠對文本的主要信息進行提煉,能夠很好的提取出反映文章主要內容的關鍵短語,更好的提高了信息查詢的準確度和信息訪問的效率。
從提取方法來說大致有兩種:關鍵詞分配,即給定一個關鍵詞庫然后從詞庫中找到幾個短語作為某篇文章的關鍵詞。另一種方法是關鍵詞提取,即就是從一篇文章中提取一些詞語作為這篇文章的關鍵詞。目前大多數關鍵詞研究都是基于關鍵詞提取的,關鍵詞提取相比于關鍵詞分配更具有實際意義。基于是否需要標記語料庫,自動關鍵詞提取方法可以大致分為有監督方法和無監督方法。有監督機器學習是從給定的訓練集中訓練出一個模型,對新數據,利用這個模型來預測結果。在關鍵詞抽取領域中,可以把關鍵詞抽取任務轉化為分類問題或標注問題即:把文檔中的詞看成是候選的關鍵詞,通過分類學習算法或序列標注方法來判斷這些候選詞是否為關鍵詞。基于有監督學習的關鍵詞抽取的一般步驟是:首先,建立一個包含大量文本并標出關鍵詞的訓練集合;然后,利用訓練集合對分類或標注算法進行訓練得到一個模型;最后,應用訓練好的模型對新文本進行關鍵詞抽取。從研究方法上有監督學習方法又可以被分為兩類:一是把關鍵詞抽取看成二分類問題,即判斷文檔中的一個詞是關鍵詞或不是關鍵詞。有監督學習的方法,研究點主要放在詞語特征表示、分類模型表示和標注語料方面。無監督關鍵詞提取方法包括語言分析法、統計方法、主題方法和基于網絡圖的方法。這些方法用于從未標記的語料庫中提取關鍵詞。比較經典的TFIDF方法考慮了詞的頻率和逆文檔頻率,TF-IWF等方法在此基礎上做了改進。TextRank考慮了詞的共現信息,Rake方法考慮了詞的共現矩陣中詞的度的信息和詞頻信息。現在也有很多研究者在此基礎上作者各種改進,盡管如此現有的關鍵詞提取方法不足之處還是很明顯:1、候選詞的屬性考慮不全面,有的考慮了詞的頻率忽略了詞性、位置信息,有的考慮了詞的共現信息忽略了文本結構信息等,影響了關鍵詞提取的準確率。2、候選詞的評分機制過于主觀化,以人的先驗知識作為評分規則的解釋標準或是根本就沒有說明評分規則設定的依據。
在學術論文分析領域,關鍵詞對于任何學術論文都是非常重要的,關鍵詞是反映學術論文主旨的單個詞或詞語的組合,是一篇文章中的一組重要詞匯,它向讀者提供了對其內容的高級描述,是對文本最簡潔的描述,也可以基本上反映文本主題,在信息檢索、文本分類和聚類、數據挖掘等領域有重要意義。學術關鍵詞存在于文本標題和摘要甚至全文中的語句都是蘊藏大量原始知識內容的集合體中,但是學術文章中關鍵詞提取面臨著很多的難點:一方面,學術論文章節多、信息量大,關鍵詞全文提取獲得的候選詞數量巨大,加重了選擇的難度,降低了準確度。另一方面,受知識產權保護,大量學術論文僅提供前16頁或大綱、摘要部分供讀者閱覽,難以從全文中提取關鍵詞。盡管有許多標記界面可以手動標記文獻,但這種行為既可以是主觀的,也是勞動密集型的,所以關鍵詞提取在學術文章領域有很好的應用前景。
因此,如何有效的提取學術文本中的關鍵詞,快速、準確的實現學術摘要中關鍵信息的提取,成為需要技術人員解決的問題。
發明內容
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于浙江工業大學,未經浙江工業大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910328467.1/2.html,轉載請聲明來源鉆瓜專利網。





