[發明專利]基于奇異值分解SVD-Blondel相似度的同義詞檢測方法在審
| 申請號: | 202310008061.1 | 申請日: | 2023-01-04 |
| 公開(公告)號: | CN116187305A | 公開(公告)日: | 2023-05-30 |
| 發明(設計)人: | 陳麗娜;俞唯仁;袁龍 | 申請(專利權)人: | 南京理工大學 |
| 主分類號: | G06F40/247 | 分類號: | G06F40/247;G06F18/22 |
| 代理公司: | 南京理工大學專利中心 32203 | 代理人: | 陳鵬 |
| 地址: | 210094 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 奇異 分解 svd blondel 相似 同義詞 檢測 方法 | ||
本發明公開了一種基于奇異值分解的SVD?Blondel相似度的同義詞檢測方法,該方法包括以下步驟:步驟1,構造關聯詞典圖G,詞典中的每個單詞是圖中的頂點,如果v出現在u的定義中,從u到v有一條邊;步驟2,給定單詞節點w作為請求,構造一個鄰域圖Gsubgt;w/subgt;,Gsubgt;w/subgt;是G的子圖,圖中的頂點是由w指向的或者指向w的;步驟3,利用基于奇異值分解的SVD?Blondel相似度計算出Gsubgt;w/subgt;中心頂點與詞典圖G的相似性分數;步驟4,獲取具有最大的相似度分數的單詞即w的同義詞。與傳統方法相比,本發明無需語料庫,準確率高且計算速度快。
技術領域
本發明涉及同義詞提取技術,特別是一種基于奇異值分解SVD_Blondel相似度的同義詞檢測方法。
背景技術
自然語言處理屬于人工智能的一個分值,目前是最熱門的研究之一,特別是在信息時代,很多實際應用都需要詞匯語義相似度的度量,比如機器翻譯、信息檢索、問答系統、搜索系統等。比如在購物APP上輸入需要搜索的商品關鍵詞“耳機”,系統能夠自動顯示“藍牙耳機”、“頭戴式耳機”、“耳麥”、“音響”等多種類似的商品。這一類應用在使用時要能夠即時且準確地提取近義詞。所以應用有效的算法是非常有必要的。
同義詞提取方法大致可以分為兩類,一種研究領域是基于分布相似性假設,它指出了同義詞共享相似的上下文信息。從語料庫中提取每個被認為重要的詞的上下文特征的統計信息,然后用向量表示每個詞。選擇一個相似度度量,比如余弦相似性,應用于查詢詞對和同義候選詞對,生成按相似度得分排序的同義詞選詞列表。另一種是基于圖結構的相似度模型,通過計算基礎圖上節點之間的相似度來評估單詞之間的相似性,基礎圖中節點表示單詞,邊用來表示單詞之間的語義聯系。
目前存在許多基于鏈接相似度的模型,其中在語義提取上應用較為廣泛的是Blondel模型,該模型的核心思想是“如果兩個圖的節點相似,那么這兩個節點的鄰居節點也相似”。其公式的矩陣形式可以表示為SK+1=BSKAT+BTSKA,其中S表示相似度矩陣,BA表示兩圖的鄰接矩陣。但在實際應用場景中會發現,Blondel模型在相似度檢索中往往無法給出令人滿意的結果。這是因為Blondel模型是對稱的,兩個節點的奇數次迭代的相似度會被忽略。導致同義詞提取的準確性不高。
另一方面,詞典中單詞的數量相當巨大,想要快速的進行同義詞提取任務,對于模型的計算速度也存在較高的要求,Blondel模型向量迭代的計算方式,時空復雜度很高,當圖結構的數據規模很大時,計算的效率低下,并不能在有效的時間內完成同義詞提取的任務,所以Blondel模型只適用于圖節點較少的場景。
發明內容
本發明的目的在于提供一種基于奇異值分解SVD?Blondel相似度的同義詞檢測方法,能夠在有效的時間內提取出給定單詞的同義詞,同時準確度較高,滿足查詢的要求。
實現本發明目的的技術解決方案為:第一方面,本發明提供一種基于奇異值分解SVD_Blondel相似度的同義詞檢測方法,包括以下步驟:
步驟1,構造關聯詞典圖G,詞典中的每個單詞是圖中的頂點,如果v出現在u的定義中,從u到v有一條邊;
步驟2,給定單詞節點w作為請求,構造一個鄰域圖Gw,Gw是G的子圖;
步驟3,利用圖相似度方法計算出Gw中心頂點與詞典圖G的相似性分數;
步驟4,獲取具有最大的相似度分數的單詞即w的同義詞。
進一步的,步驟2中,給定單詞節點w作為請求,構造一個鄰域圖Gw,Gw是G的子圖,圖中的頂點是由w指向的或者指向w的;所述步驟2具體包括如下:
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于南京理工大學,未經南京理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202310008061.1/2.html,轉載請聲明來源鉆瓜專利網。





