[發明專利]文獻主題詞聚合方法、裝置、計算機設備及可讀存儲介質有效
| 申請號: | 202010744556.7 | 申請日: | 2020-07-29 |
| 公開(公告)號: | CN111898366B | 公開(公告)日: | 2022-08-09 |
| 發明(設計)人: | 柴玲 | 申請(專利權)人: | 平安科技(深圳)有限公司 |
| 主分類號: | G06F40/216 | 分類號: | G06F40/216;G06F40/30;G06F16/2458;G06K9/62 |
| 代理公司: | 深圳市精英專利事務所 44242 | 代理人: | 武志峰 |
| 地址: | 518000 廣東省深圳市福田區福*** | 國省代碼: | 廣東;44 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 文獻 主題詞 聚合 方法 裝置 計算機 設備 可讀 存儲 介質 | ||
1.一種文獻主題詞聚合方法,其特征在于,所述方法包括:
獲取文獻數據,所述文獻數據包括每篇文獻所包含的文獻標題、文獻摘要及所述每篇文獻所對應的引文信息;
采用預設自然語言處理工具從所述文獻標題和所述文獻摘要中提取所包含的名詞短語;
基于所述引文信息及所述名詞短語,對所述名詞短語進行聚類,以得到近義詞集合,包括:根據所述名詞短語,建立基于所述名詞短語的語義相似度;基于所述引文信息,構建文獻所對應的文獻共被引網絡;根據所述文獻共被引網絡,計算所述文獻所對應的文獻共被引相似度;根據所述文獻共被引相似度,構建所述名詞短語所對應的短語共被引相似度網絡;根據所述短語共被引相似度網絡,得到所述名詞短語所對應的短語共被引相似度;根據所述短語共被引相似度及所述語義相似度,對所述名詞短語進行聚類,以得到近義詞集合;
從所述近義詞集合中篩選出詞頻頻率最高的目標名詞短語作為文獻的主題詞。
2.根據權利要求1所述文獻主題詞聚合方法,其特征在于,所述根據所述名詞短語,建立基于所述名詞短語的語義相似度的步驟包括:
將所述名詞短語輸入至預設Biobert模型,以得到所述名詞短語所對應的語義向量;
計算所述語義向量之間的余弦相似度,以得到所述名詞短語所對應的語義相似度。
3.根據權利要求1或者2所述文獻主題詞聚合方法,其特征在于,所述根據所述短語共被引相似度及所述語義相似度,對所述名詞短語進行聚類,以得到近義詞集合的步驟之前,還包括:
基于所述短語共被引相似度網絡,采用預設社團檢測方式進行社團檢測,以得到若干個短語社團;
所述根據所述短語共被引相似度及所述語義相似度,對所述名詞短語進行聚類,以得到近義詞集合的步驟包括:
根據所述名詞短語所對應的短語共被引相似度,對所述短語社團進行聚類,以得到第一聚類;
根據所述短語所對應的所述語義相似度,對所述短語社團進行聚類,以得到第二聚類;
判斷每兩個所述名詞短語是否均包含于所述第一聚類和所述第二聚類;
若每兩個所述名詞短語均包含于所述第一聚類和所述第二聚類,判定該兩個所述名詞短語為近義詞,從而得到近義詞短語;
將所有所述近義詞短語組合成集合以得到近義詞集合。
4.根據權利要求1所述文獻主題詞聚合方法,其特征在于,所述從所述近義詞集合中篩選出詞頻頻率最高的目標名詞短語作為文獻的主題詞的步驟包括:
根據預設TF-IDF算法,從所述近義詞集合中篩選出TF-IDF值最高的名詞短語作為目標名詞短語;
將所述目標名詞短語作為文獻的主題詞。
5.一種文獻主題詞聚合裝置,其特征在于,包括:
獲取單元,用于獲取文獻數據,所述文獻數據包括每篇文獻所包含的文獻標題、文獻摘要及所述每篇文獻所對應的引文信息;
提取單元,用于采用預設自然語言處理工具從所述文獻標題和所述文獻摘要中提取所包含的名詞短語;
聚類單元,用于基于所述引文信息及所述名詞短語,對所述名詞短語進行聚類,以得到近義詞集合,其中,所述聚類單元包括:建立子單元,用于根據所述名詞短語,建立基于所述名詞短語的語義相似度;第一構建子單元,用于基于所述引文信息,構建文獻所對應的文獻共被引網絡;第一計算子單元,用于根據所述文獻共被引網絡,計算所述文獻所對應的文獻共被引相似度;第二構建子單元,用于根據所述文獻共被引相似度,構建所述名詞短語所對應的短語共被引相似度網絡;獲取子單元,用于根據所述短語共被引相似度網絡,得到所述名詞短語所對應的短語共被引相似度;聚類子單元,用于根據所述短語共被引相似度及所述語義相似度,對所述名詞短語進行聚類,以得到近義詞集合;
篩選單元,用于從所述近義詞集合中篩選出詞頻頻率最高的目標名詞短語作為文獻的主題詞。
6.根據權利要求5所述文獻主題詞聚合裝置,其特征在于,所述建立子單元包括:
輸入子單元,用于將所述名詞短語輸入至預設Biobert模型,以得到所述名詞短語所對應的語義向量;
第二計算子單元,用于計算所述語義向量之間的余弦相似度,以得到所述名詞短語所對應的語義相似度。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于平安科技(深圳)有限公司,未經平安科技(深圳)有限公司許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010744556.7/1.html,轉載請聲明來源鉆瓜專利網。





