[發(fā)明專利]基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng)在審
| 申請?zhí)枺?/td> | 202110273206.1 | 申請日: | 2021-03-15 |
| 公開(公告)號: | CN112966523A | 公開(公告)日: | 2021-06-15 |
| 發(fā)明(設(shè)計)人: | 楊東強;陰艷芹 | 申請(專利權(quán))人: | 山東建筑大學(xué) |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/284;G06F40/247;G06F40/242;G06K9/62;G06N3/02 |
| 代理公司: | 暫無信息 | 代理人: | 暫無信息 |
| 地址: | 250100 山東*** | 國省代碼: | 山東;37 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 語義 關(guān)系 約束 向量 修正 方法 計算 系統(tǒng) | ||
1.一種基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,包括以下步驟:
WordNet、Roget語義詞典中抽取對稱關(guān)系的同義詞、反義詞約束集;
提取非對稱關(guān)系的直接上位/下位詞約束集;
構(gòu)建詞嵌入向量更新模型和損失函數(shù);
執(zhí)行同義詞拉近函數(shù)、反義詞推遠函數(shù)及直接上位/下位詞拉近函數(shù)對詞嵌入向量進行更新;
根據(jù)更新后詞嵌入向量對輸入詞匯初始化;
根據(jù)相似性定理計算詞匯相似性并輸出結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,所述的WordNet、Roget語義詞典中抽取對稱關(guān)系的同義詞、反義詞約束集,名詞、動詞、形容詞和副詞在語義詞典中均各自被組織成一個具有對稱關(guān)系的同義詞的網(wǎng)絡(luò)和反義詞網(wǎng)絡(luò),每個同義詞集合和反義詞集都代表一個基本的語義概念。
3.根據(jù)權(quán)利要求1所述的基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,所述的提取非對稱關(guān)系的直接上位/下位詞約束集,由于語義關(guān)系傳遞自身存在似然性,隨著語義傳遞路徑長度的增長,語義傳遞的有效性逐漸降低,概念相似性也更模糊。在WordNet IS-A和PART-OF的語義網(wǎng)絡(luò)層次(Hierarchy)體系中,隨著網(wǎng)絡(luò)路徑距離的增加,概念間的語義域重疊度也會相應(yīng)降低,不同領(lǐng)域的概念密切程度也會逐漸稀疏。因此,當(dāng)兩個詞匯為相鄰的直接上位/下位關(guān)系時,兩者之間的相似性更高。
4.根據(jù)權(quán)利要求1所述的基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,所述的構(gòu)建詞嵌入向量更新模型和損失函數(shù),使用直接上位詞約束集建立新型語義約束條件并構(gòu)建修正模型,提升了神經(jīng)網(wǎng)絡(luò)詞嵌入向量的語義表達能力。假設(shè)取GloVeCommon Crawl-300D詞嵌入向量進行修正,首先獲取詞嵌入向量詞典,注入的外部語言約束集包括同義詞約束集,反義詞約束集以及直接上位/下位詞約束集。模型優(yōu)化過程中分別對同義詞約束集、反義詞約束集、直接上位/下位詞約束集進行小批量訓(xùn)練,令具有同義詞關(guān)系的詞對之間的距離更近,具有反義詞關(guān)系的詞對之間的距離更遠,而直接上位/下位詞關(guān)系的單詞對之間的距離更加接近,拉近及推遠的范圍由定義的損失函數(shù)來控制。
5.根據(jù)權(quán)利要求1所述的基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,所述的執(zhí)行同義詞拉近函數(shù)、反義詞推遠函數(shù)及直接上位/下位詞拉近函數(shù)對詞嵌入向量進行更新;同義詞拉近采用鉸鏈函數(shù)判斷同義詞集向量之間彼此拉近的界值,反義詞推遠函數(shù)與此同理;為保留初始向量空間中的高質(zhì)量的語義信息,每個小批量處理中的詞向量,當(dāng)該信息與上述注入的語言約束一致時,使用L2正則化方法來進行處理;直接上位/下位關(guān)系作為非對稱語言約束,在修正分布式詞向量過程中的順序是至關(guān)重要的。將直接上位/下位關(guān)系優(yōu)化方式與前述函數(shù)相同,采用歐幾里德范數(shù)作為非對稱距離函數(shù)來重新縮放詞向量,以反映上位/下位詞匯之間的關(guān)系。采用以上定義的損失函數(shù)執(zhí)行詞嵌入向量。
6.根據(jù)權(quán)利要求1所述的基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,所述的根據(jù)更新后詞嵌入向量對輸入詞匯初始化,所要計算的相似性詞匯的形式可以是任意的,如在詞匯語義相似性計算系統(tǒng)的窗口中鍵入目標(biāo)詞匯,或?qū)⒛繕?biāo)詞匯統(tǒng)一整理成表格形式輸入系統(tǒng)中進行計算;輸入后的詞匯在更新后的詞向量檢索對應(yīng)向量值并進行初始化。
7.根據(jù)權(quán)利要求1所述的基于語義關(guān)系約束的詞向量修正方法及計算系統(tǒng),其特征在于,所述根據(jù)相似性定理計算詞匯相似性并輸出結(jié)果,詞匯語義相似性計算方法主要包含:
(1)余弦距離(Cosine Distance)
(2)歐式距離(Euclidean Distance)
(3)曼哈頓距離(Manhattan Distance)
(4)明可夫斯基距離(Minkowski Distance)
根據(jù)上述任意語義相似性度量方法均可計算輸出詞匯相似值。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于山東建筑大學(xué),未經(jīng)山東建筑大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110273206.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。





