[發(fā)明專利]融合標(biāo)題和正文雙向互注意力的涉法新聞相關(guān)性分析方法有效
| 申請(qǐng)?zhí)枺?/td> | 202011055105.9 | 申請(qǐng)日: | 2020-09-30 |
| 公開(公告)號(hào): | CN112287105B | 公開(公告)日: | 2023-09-12 |
| 發(fā)明(設(shè)計(jì))人: | 余正濤;王冠文;郭軍軍;黃于欣;相艷;張玉 | 申請(qǐng)(專利權(quán))人: | 昆明理工大學(xué) |
| 主分類號(hào): | G06F16/35 | 分類號(hào): | G06F16/35;G06F40/205;G06F40/258;G06F40/284;G06F40/289;G06N3/0464;G06N3/0442;G06N3/08 |
| 代理公司: | 昆明隆合知識(shí)產(chǎn)權(quán)代理事務(wù)所(普通合伙) 53220 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國(guó)省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 融合 標(biāo)題 正文 雙向 注意力 新聞 相關(guān)性 分析 方法 | ||
1.融合標(biāo)題和正文雙向互注意力的涉法新聞相關(guān)性分析方法,其特征在于:所述方法的具體步驟如下:
Step1、獲取標(biāo)題和正文的詞級(jí)特征向量;
Step2、構(gòu)建標(biāo)題和正文相似矩陣去分別計(jì)算正文輔助標(biāo)題、以及標(biāo)題輔助正文的雙向互注意力;
Step3、分別對(duì)正文輔助標(biāo)題以及標(biāo)題輔助正文這兩種情況下得到的雙向互注意力向量進(jìn)一步提取上下文依賴關(guān)系,然后把提取到的上下文依賴關(guān)系在標(biāo)題與正文進(jìn)行交叉融合,以得到整篇新聞的從網(wǎng)絡(luò)層輸出的新聞完整特征;
Step4、根據(jù)新聞特性判斷其是否屬于涉法新聞;
所述步驟Step2的具體步驟為:Step2.1、進(jìn)行標(biāo)題與正文相似矩陣的構(gòu)建,正文輔助標(biāo)題相似矩陣為:
Sik=α(T:i,C:k)∈RN*L
其中Sik表示第i個(gè)標(biāo)題描述詞和第k個(gè)正文輔助詞之間的相似度,T:i表示T的第i列向量,C:k表示C的第k列向量,α表示計(jì)算T與C之間相似度的可訓(xùn)練函數(shù),如下式所示:
其中是待訓(xùn)練的權(quán)重向量,是逐元素乘法,[;]是跨行的向量串聯(lián),而因式乘法表示矩陣乘法,t與T的列向量對(duì)應(yīng),c與C的列向量對(duì)應(yīng);這樣得到正文輔助標(biāo)題的相似矩陣S∈RN*L;標(biāo)題輔助正文的相似矩陣與之類似,只需要將輸入順序轉(zhuǎn)置即可;
Step2.2、對(duì)正文輔助標(biāo)題相似矩陣S中的列向量進(jìn)行softmax歸一化得到注意力權(quán)重ai,再將ai與正文C中的每個(gè)詞進(jìn)行加權(quán)求和,就得到標(biāo)題對(duì)正文的注意力向量矩陣U;
ai=softmax(Si:)∈RL
U=∑aikC:k∈R2d*N
正文對(duì)標(biāo)題的注意力在正文輔助標(biāo)題的情況下,指的是標(biāo)題中哪個(gè)詞與正文詞之一具有最高的相似性;先對(duì)S中的每一列取最大值,再經(jīng)過softmax歸一化后得到標(biāo)題詞對(duì)正文詞的注意力權(quán)重p,再用p與標(biāo)題詞進(jìn)行加權(quán)求和,得到所關(guān)注標(biāo)題詞的向量f,該向量表示標(biāo)題詞相對(duì)正文而言最重要的詞的加權(quán)和,f在列方向上平鋪N次,得到正文對(duì)標(biāo)題的注意力向量矩陣F;
p=softmax(maxcol(S))∈RN
f=∑ipiT:i∈R2d
為了減少信息丟失,將T,U,F(xiàn)聯(lián)合共同傳遞給后續(xù)網(wǎng)絡(luò)層;最終得到完整的正文輔助標(biāo)題的雙向互注意力向量;
Step2.3、標(biāo)題輔助正文的雙向互注意力計(jì)算:將正文輔助標(biāo)題的相似矩陣S變更為標(biāo)題輔助正文的相似矩陣S',即得到正文對(duì)標(biāo)題的注意力U'∈R2d*L以及標(biāo)題對(duì)正文的注意力F'∈R2d*L,最后將C,U',F(xiàn)'三者通過函數(shù)得到完整的標(biāo)題輔助正文的雙向互注意力向量;
所述步驟Step3的具體步驟為:
Step3.1、使用兩個(gè)BiGRU來分別提取正文輔助標(biāo)題的雙向互注意力向量、標(biāo)題輔助正文的雙向互注意力向量的上下文依賴關(guān)系;
Step3.2、對(duì)兩個(gè)雙向互注意力向量進(jìn)行特征提取,用連接殘差來最大程度確保所有信息進(jìn)入輸出網(wǎng)絡(luò)層,實(shí)現(xiàn)標(biāo)題與正文的交叉融合。
2.根據(jù)權(quán)利要求1所述的融合標(biāo)題和正文雙向互注意力的涉法新聞相關(guān)性分析方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、使用中文微博詞向量來獲得標(biāo)題中每個(gè)詞的嵌入表征,引入注意力機(jī)制,得到加權(quán)后的標(biāo)題詞級(jí)特征向量;
Step1.2、對(duì)正文文檔進(jìn)行分句,再對(duì)每個(gè)句子進(jìn)行分詞,之后對(duì)每個(gè)句子的詞進(jìn)行編碼得到向量,再通過注意力機(jī)制來分別提取文檔中每個(gè)句子的詞級(jí)特征向量。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學(xué),未經(jīng)昆明理工大學(xué)許可,擅自商用是侵權(quán)行為。如果您想購(gòu)買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請(qǐng)聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202011055105.9/1.html,轉(zhuǎn)載請(qǐng)聲明來源鉆瓜專利網(wǎng)。
- 基于人工智能的文章標(biāo)題生成方法、裝置、設(shè)備及介質(zhì)
- 一種相同新聞信息的歸類方法及系統(tǒng)
- 一種新聞主副標(biāo)題檢測(cè)方法及裝置
- 標(biāo)題識(shí)別方法及裝置
- 用于真產(chǎn)品詞識(shí)別的系統(tǒng)、方法和計(jì)算機(jī)可讀介質(zhì)
- 一種文檔系統(tǒng)的側(cè)邊欄展示方法及系統(tǒng)
- 一種文檔標(biāo)題層級(jí)的分析方法、裝置及服務(wù)器
- 一種文章標(biāo)題優(yōu)化方法、系統(tǒng)、介質(zhì)及設(shè)備
- 一種文本標(biāo)注方法、裝置、設(shè)備及可讀存儲(chǔ)介質(zhì)
- 數(shù)據(jù)標(biāo)識(shí)方法、裝置、計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)及電子設(shè)備
- 滾動(dòng)顯示控制
- 郵件數(shù)據(jù)下載的實(shí)現(xiàn)方法、客戶端、服務(wù)器及系統(tǒng)
- 移動(dòng)終端的郵件正文的顯示方法及裝置
- 網(wǎng)頁正文抽取方法及裝置
- word文檔的模塊化方法及系統(tǒng)
- 一種版式文檔正文碎片化的方法
- 標(biāo)題正文相關(guān)度的確定方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)
- 一種基于正文節(jié)點(diǎn)特征的提取網(wǎng)頁正文的方法和系統(tǒng)
- 一種根據(jù)新建模板生成審批正文的方法及系統(tǒng)
- 網(wǎng)頁正文提取方法、裝置、電子設(shè)備及存儲(chǔ)介質(zhì)
- 雙向無線電能監(jiān)控系統(tǒng)
- 雙向無線電能監(jiān)控系統(tǒng)
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 電動(dòng)車電機(jī)自動(dòng)變速器雙向驅(qū)動(dòng)盤
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 一種沖床離合制動(dòng)器機(jī)構(gòu)
- 雙向多步DeBruijn圖的自環(huán)雙向邊識(shí)別與去除方法
- 雙向調(diào)節(jié)機(jī)構(gòu)
- 基于HVDC網(wǎng)絡(luò)與AC環(huán)網(wǎng)的分布式發(fā)電系統(tǒng)
- 一種矩形板回彈曲率的建模方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)





