[發(fā)明專利]一種用于含噪稀疏文本的語(yǔ)義關(guān)系抽取方法有效
| 申請(qǐng)?zhí)枺?/td> | 201910806205.1 | 申請(qǐng)日: | 2019-08-29 |
| 公開(kāi)(公告)號(hào): | CN110674642B | 公開(kāi)(公告)日: | 2023-04-18 |
| 發(fā)明(設(shè)計(jì))人: | 趙翔;龐寧;譚真;郭愛(ài)博;殷風(fēng)景;唐九陽(yáng);葛斌;肖衛(wèi)東 | 申請(qǐng)(專利權(quán))人: | 中國(guó)人民解放軍國(guó)防科技大學(xué) |
| 主分類號(hào): | G06F40/30 | 分類號(hào): | G06F40/30;G06F40/289;G06F40/211;G06F18/25;G06N3/0464;G06N3/084 |
| 代理公司: | 北京律誠(chéng)同業(yè)知識(shí)產(chǎn)權(quán)代理有限公司 11006 | 代理人: | 祁建國(guó);張燕華 |
| 地址: | 410003 湖*** | 國(guó)省代碼: | 湖南;43 |
| 權(quán)利要求書: | 查看更多 | 說(shuō)明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 一種 用于 稀疏 文本 語(yǔ)義 關(guān)系 抽取 方法 | ||
1.一種用于含噪稀疏文本的語(yǔ)義關(guān)系抽取方法,其特征在于,包括以下步驟:
步驟1,建立中文文本訓(xùn)練樣本集;
步驟2,構(gòu)建語(yǔ)義關(guān)系抽取模型;
步驟3,訓(xùn)練語(yǔ)義關(guān)系抽取模型;
步驟4,建立待抽取語(yǔ)義的數(shù)據(jù)集;
步驟5,利用訓(xùn)練好的語(yǔ)義關(guān)系抽取模型從待抽取語(yǔ)義的數(shù)據(jù)集中提取語(yǔ)義關(guān)系;
所述的訓(xùn)練樣本集是利用知識(shí)圖譜遠(yuǎn)程監(jiān)督維基百科上的語(yǔ)料自動(dòng)生成弱標(biāo)注的數(shù)據(jù),每條訓(xùn)練實(shí)例包含目標(biāo)實(shí)體對(duì)、分詞序列、依存路徑和弱監(jiān)督標(biāo)簽;
所述的依存路徑為最短依存路徑,定義為:在句法分析依存樹(shù)中實(shí)體對(duì)之間的最短路徑;
所述的語(yǔ)義關(guān)系抽取模型包括輸入層、嵌入層、卷積層、特征融合層、全連接層,上述各層先后依次連接,所述輸入層為描述某一實(shí)體對(duì)的全部分詞序列和對(duì)應(yīng)依存路徑所構(gòu)成的實(shí)例包提供一個(gè)輸入接口;所述嵌入層將所輸入的分詞序列和對(duì)應(yīng)依存路徑通過(guò)表示學(xué)習(xí)方式映射到低維向量空間;所述卷積層為兩個(gè)獨(dú)立的卷積網(wǎng)絡(luò),分別用于提取實(shí)例包中所有分詞序列和所有對(duì)應(yīng)依存路徑的語(yǔ)義特征;所述特征融合層將來(lái)自分詞序列和對(duì)應(yīng)依存路徑兩方面的互補(bǔ)語(yǔ)義特征進(jìn)行融合;所述全連接層將實(shí)例映射至已定義的關(guān)系集合上,獲得實(shí)體對(duì)之間的語(yǔ)義關(guān)系。
2.根據(jù)權(quán)利要求1所述的語(yǔ)義關(guān)系抽取方法,其特征在于,所述的語(yǔ)義關(guān)系抽取模型還包括多實(shí)例學(xué)習(xí)機(jī)制模塊,從全連接層中獲取數(shù)據(jù),將學(xué)習(xí)的結(jié)果反饋到卷積層,指導(dǎo)卷積層的計(jì)算操作;所述的多實(shí)例學(xué)習(xí)機(jī)制模塊在模型學(xué)習(xí)過(guò)程中選擇實(shí)例包中最好的實(shí)例作為訓(xùn)練和預(yù)測(cè)實(shí)例,丟棄其他實(shí)例,抑制噪聲實(shí)例影響。
3.根據(jù)權(quán)利要求2所述的語(yǔ)義關(guān)系抽取方法,其特征在于,訓(xùn)練語(yǔ)義關(guān)系抽取模型的過(guò)程為:初始化后,以交叉熵作為損失函數(shù),通過(guò)多實(shí)例學(xué)習(xí)方法,采用隨機(jī)梯度下降法對(duì)所述的語(yǔ)義關(guān)系抽取模型進(jìn)行迭代更新模型參數(shù),每迭代一次檢驗(yàn)一次梯度,以尋求各網(wǎng)絡(luò)層權(quán)重和偏置的最優(yōu)解,迭代多次后得到本次訓(xùn)練的最優(yōu)語(yǔ)義關(guān)系抽取模型。
4.根據(jù)權(quán)利要求2所述的語(yǔ)義關(guān)系抽取方法,其特征在于,所述輸入層的輸入接口數(shù)量為2,分別對(duì)應(yīng)分詞序列和依存路徑,每一條實(shí)例的輸入定義如下:其中,x代表輸入的分詞序列,代表分詞序列中的第i個(gè)分詞,s代表輸入的依存路徑,代表依存路徑上的第i個(gè)分詞;
所述的嵌入層分別將輸入的分詞序列和依存路徑上的每一個(gè)分詞映射為向量表示,每個(gè)分詞的向量表示包含詞向量、位置向量和詞性標(biāo)注向量三部分,其中詞向量通過(guò)Word2Vec算法預(yù)先訓(xùn)練得到,包含分詞的語(yǔ)義信息,位置向量通過(guò)隨機(jī)初始化得到,包含分詞在分詞序列或依存路徑中的位置信息,詞性標(biāo)注向量表示為單位向量,包含分詞的詞性信息;在分詞序列或者依存路徑中的任意一個(gè)分詞可以進(jìn)行如下的向量表示:wi=[vword:vposition:vtag],其中,vword,vposition和vtag分別表示分詞的詞向量,位置向量和詞性標(biāo)注向量,wi的維度為k;
將每一個(gè)分詞向量表示按照分詞序列和依存路徑中的順序先后水平連接,得到分詞序列和依存路徑的向量表示,表示為:其中,X代表分詞序列經(jīng)過(guò)嵌入層之后的向量表示,Wix代表分詞序列中第i個(gè)分詞的向量表示,S代表依存路徑經(jīng)過(guò)嵌入層之后的向量表示,Wis代表依存路徑中第i個(gè)分詞的向量表示。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于中國(guó)人民解放軍國(guó)防科技大學(xué),未經(jīng)中國(guó)人民解放軍國(guó)防科技大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/201910806205.1/1.html,轉(zhuǎn)載請(qǐng)聲明來(lái)源鉆瓜專利網(wǎng)。
- 文本匹配方法及裝置
- 互聯(lián)網(wǎng)金融非顯性廣告識(shí)別方法及裝置
- 文本結(jié)論智能推薦方法、裝置及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 文本檢索方法、裝置及設(shè)備、文本檢索模型的訓(xùn)練方法
- 基于級(jí)連模式的文本匹配方法及裝置
- 一種文本關(guān)系提取方法、裝置及電子設(shè)備
- 文本的標(biāo)準(zhǔn)化處理方法、裝置、電子設(shè)備及計(jì)算機(jī)介質(zhì)
- 文本標(biāo)簽確定方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)
- 文本圖像合成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 文本生成方法、裝置和電子設(shè)備
- 面向語(yǔ)義Web服務(wù)程序設(shè)計(jì)的語(yǔ)義數(shù)據(jù)表示和處理方法
- 一種基于語(yǔ)義的三維模型檢索系統(tǒng)和方法
- 一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)
- 導(dǎo)航方法及裝置
- 一種分層次多語(yǔ)義網(wǎng)系統(tǒng)及方法
- 一種基于上下文的語(yǔ)義匹配方法和系統(tǒng)
- 遠(yuǎn)程語(yǔ)義識(shí)別方法、裝置、設(shè)備及計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)
- 一種基于語(yǔ)義依存關(guān)系的醫(yī)療文本標(biāo)注方法
- 基于多級(jí)語(yǔ)義表征和語(yǔ)義計(jì)算的信號(hào)語(yǔ)義識(shí)別方法
- 語(yǔ)義分類方法及裝置、存儲(chǔ)介質(zhì)及電子設(shè)備





