[發明專利]一種金融領域近義詞的擴展方法、裝置及存儲介質有效
| 申請號: | 202011206972.8 | 申請日: | 2020-11-03 |
| 公開(公告)號: | CN112380857B | 公開(公告)日: | 2022-07-29 |
| 發明(設計)人: | 蔡少波;陳凱;周異 | 申請(專利權)人: | 上海交通大學 |
| 主分類號: | G06F40/289 | 分類號: | G06F40/289;G06F40/247;G06F16/332;G06Q40/00 |
| 代理公司: | 上海恒慧知識產權代理事務所(特殊普通合伙) 31317 | 代理人: | 徐紅銀 |
| 地址: | 200240 *** | 國省代碼: | 上海;31 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 金融 領域 近義詞 擴展 方法 裝置 存儲 介質 | ||
本發明公開了一種金融領域近義詞的擴展方法、裝置及存儲介質,該方法包括:從多個金融門戶和/或網站獲取金融語料;對獲取的金融語料進行分詞處理;分別計算每個單詞最相近的單詞;構建單詞網絡結構;利用可重疊社區發現算法建立具有社區結構的語料庫;將每個社區歸類出的單詞存儲至存儲單元,當接收到檢索詞時,將檢索詞所在的社區輸出。該裝置包括:金融語料單元、分詞處理單元、最相近的單詞計算單元、單詞網絡結構構建單元、語料庫建立單元以及社區輸出單元。通過本發明,可以識別語義相似關系,當輸入一個或多個金融詞語時,可以輸出意思相近的若干詞語,無需用戶具備專業領域的知識,可以大大降低用戶的檢索難度和時間,提高檢索準確度。
技術領域
本發明涉及金融檢索領域,特別涉及一種金融領域近義詞的擴展方法、裝置及存儲介質。
背景技術
普通百姓對金融領域的檢索有大量需求,但需要大量專業領域知識。如果用戶對金融領域比較陌生時,很難檢索到準確的詞語。此時需要通過近義詞的拓展方法提供更多選擇,幫助用戶確定下一步檢索方向,以能滿足用戶的檢索需求。
傳統分類算法在處理語義相似關系時有局限,主要有文本相似度算法,詞向量算法等。
現有技術中,通過文本相似度算法輸出近義詞,存在以下缺點:會挖掘出很多錯誤的同義詞,尤其是在詞語很短的時候,例如“周杰倫”和“周杰”就很有可能被認為是同義詞。
現有技術中,通過詞向量算法來輸出近義詞,存在以下缺點:(1)輸出的數量難以界定。例如輸出確定為Top20時,可能在第15個詞時相似度已經很低,或者第21個詞相似度很高卻被遺漏的情況。(2)詞向量算法只能接收一個單詞輸入,會出現具有歧義的情況。例如,輸入火箭,輸出導彈、姚明為近義詞,而導彈和姚明意思并不相近。
發明內容
本發明針對上述現有技術中存在的問題,提出一種金融領域近義詞的擴展方法、裝置及存儲介質,可以識別語義相似關系,當輸入一個或多個金融詞語時,可以輸出意思相近的若干詞語,實現近義詞的擴展。
為解決上述技術問題,本發明是通過如下技術方案實現的:
本發明提供一種金融領域近義詞的擴展方法,其包括:
從多個金融門戶和/或網站獲取金融語料;
對獲取的所述金融語料進行分詞處理;
分別計算分詞處理后的每個單詞最相近的單詞;
利用所述分詞處理與每個單詞最相近的單詞的結果構建單詞網絡結構;
根據所述單詞網絡結構,利用可重疊社區發現算法建立具有社區結構的語料庫;
將每個社區歸類出的單詞存儲至存儲單元,當接收到檢索詞時,將所述檢索詞所在的社區輸出。
較佳地,所述分詞處理進一步為:分成具有上下文關系的兩個或兩個以上單詞。
較佳地,所述分別計算分詞處理后的每個單詞最相近的單詞之前還包括:預先獲得每個單詞的向量表示。
較佳地,所述分別計算分詞處理后的每個單詞最相近的單詞,包括:
采用word2vec獲得每個單詞的向量表示;
根據得到的每個單詞的向量表示,計算得到每個單詞最相近的單詞。
較佳地,所述利用所述分詞處理與每個單詞最相近的單詞的結果構建單詞網絡結構,包括:每個單詞為一個網絡節點,如果兩者是相近的,兩者之間形成一條邊。
較佳地,所述利用可重疊社區發現算法建立具有社區結構的語料庫,包括:
找到單詞網絡結構中的大小為K的完全子圖,其中完全子圖是指K個節點全部相連構成的圖;
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于上海交通大學,未經上海交通大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011206972.8/2.html,轉載請聲明來源鉆瓜專利網。





