[發明專利]文獻主題詞聚合方法、裝置、計算機設備及可讀存儲介質有效
| 申請號: | 202010744556.7 | 申請日: | 2020-07-29 |
| 公開(公告)號: | CN111898366B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 柴玲 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F16/2458;G06K9/62 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 武志峰 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文獻 主題詞 聚合 方法 裝置 計算機 設備 可讀 存儲 介質 | ||
本申請實施例提供了一種文獻主題詞聚合方法、裝置、計算機設備及計算機可讀存儲介質。本申請實施例屬于語義處理技術領域,通過獲取文獻數據,文獻數據包括每篇文獻所包含的文獻標題、文獻摘要及每篇文獻所對應的引文信息,采用預設自然語言處理工具從文獻標題和文獻摘要中提取所包含的名詞短語,基于引文信息及名詞短語,對名詞短語進行聚類,以得到近義詞集合,從近義詞集合中篩選出詞頻頻率最高的目標名詞短語作為文獻的主題詞,由于結合了名詞短語及引文信息,使用了短語級別的近義詞處理方式,且結合了引文信息進行名詞短語相似度的表征,提高了文獻的主題詞聚合的準確性。
技術領域
本申請涉及語義處理技術領域,尤其涉及一種文獻主題詞聚合方法、裝置、計算機設備及計算機可讀存儲介質。
背景技術
在對技術進行研究的過程中,把握一個領域的研究熱點變化動態或者最新的研究熱點是十分重要的,盡管文獻庫存在對文獻的主題進行了打標簽,但很多情況下,對主題的描述所對應的標簽存在不準確的情形。例如,對于醫學研究者,把握一個領域的研究熱點變化動態或者最新的研究熱點是十分重要的,不僅可以提高科研的效率也對診斷治療疑難病癥有巨大的幫助。盡管醫學文獻庫PUBMED,絕大部分文獻均有專家打的標簽(即Mesh Term方式)或者關鍵詞,但是Mesh Term耗費人力巨大,而且Mesh Term是從多種不同角度(如疾病、藥物、物種等)進行標記,在大多數情況下,并不能代表該文獻具體的研究熱點所在,而關鍵詞也同樣存在較泛指并且會偏向于作者自己主觀的選擇。所以在多數的科學計量分析中,選擇標題和摘要里面的名詞短語作為一篇文章主題詞的候選項,這樣蘊含的信息會更加貼近文獻的真正研究內容。但是直接適用標題和摘要中的短語進行主題分析,同義詞會帶來極大的噪音。尤其是對于細分領域,如肺癌,現有的主流主題模型,如LDA等,選出的主題代表詞往往包含了大量近義或同義專業術語,造成信息冗余、不準確,例如non-smallcell lung cancer,non-small cell lung carcinoma,non-small cell carcinoma,non-small cell lung cancer cells,human non-small cell lung cancer,應該標準化到同一個主題詞non-small cell lung cancer中。
傳統技術中,對文獻近義詞術語處理過程中,由于一般使用單詞級別的語義相似度進行表征,并且,一般的近義詞獲取只能考慮到句子級別的信息,如上下文及詞性等,對于文獻的主題詞聚合的準確性較低。
發明內容
本申請實施例提供了一種文獻主題詞聚合方法、裝置、計算機設備及計算機可讀存儲介質,能夠解決傳統技術中對文獻的主題詞聚合的準確性較低的問題。
第一方面,本申請實施例提供了一種文獻主題詞聚合方法,所述方法包括:獲取文獻數據,所述文獻數據包括每篇文獻所包含的文獻標題、文獻摘要及所述每篇文獻所對應的引文信息;采用預設自然語言處理工具從所述文獻標題和所述文獻摘要中提取所包含的名詞短語;基于所述引文信息及所述名詞短語,對所述名詞短語進行聚類,以得到近義詞集合;從所述近義詞集合中篩選出詞頻頻率最高的目標名詞短語作為文獻的主題詞。
第二方面,本申請實施例還提供了一種文獻主題詞聚合裝置,包括:獲取單元,用于獲取文獻數據,所述文獻數據包括每篇文獻所包含的文獻標題、文獻摘要及所述每篇文獻所對應的引文信息;提取單元,用于采用預設自然語言處理工具從所述文獻標題和所述文獻摘要中提取所包含的名詞短語;聚類單元,用于基于所述引文信息及所述名詞短語,對所述名詞短語進行聚類,以得到近義詞集合;篩選單元,用于從所述近義詞集合中篩選出詞頻頻率最高的目標名詞短語作為文獻的主題詞。
第三方面,本申請實施例還提供了一種計算機設備,其包括存儲器及處理器,所述存儲器上存儲有計算機程序,所述處理器執行所述計算機程序時實現所述文獻主題詞聚合方法的步驟。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010744556.7/2.html,轉載請聲明來源鉆瓜專利網。





