[發(fā)明專利]基于案件屬性感知的案件傾向性抽取式摘要方法有效
| 申請?zhí)枺?/td> | 202010980726.1 | 申請日: | 2020-09-17 |
| 公開(公告)號: | CN112287687B | 公開(公告)日: | 2022-06-14 |
| 發(fā)明(設計)人: | 余正濤;閆婉瑩;郭軍軍;相艷;黃于欣;線巖團 | 申請(專利權(quán))人: | 昆明理工大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F40/279;G06F40/258;G06F40/211;G06F16/35;G06F16/951;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產(chǎn)權(quán)代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權(quán)利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關(guān)鍵詞: | 基于 案件 屬性 感知 傾向性 抽取 摘要 方法 | ||
1.基于案件屬性感知的案件傾向性抽取式摘要方法,其特征在于:根據(jù)案件屬性詞構(gòu)建案件信息庫并提出基于案件屬性感知的層級選擇性編碼結(jié)構(gòu)、提出案件傾向性聯(lián)合注意力機制,獲得更傾向于涉案新聞的文本語義表征、通過句子打分與選擇框架聯(lián)合學習完成摘要句的抽取;
所述方法包括:
Step1、涉案新聞文本數(shù)據(jù)爬取并進行數(shù)據(jù)預處理;
Step2、通過案件信息庫編碼器模型得到案件信息庫的語義向量;
Step3、構(gòu)建案件屬性感知文檔編碼器模型,案件屬性感知文檔編碼器模型得到傾向于案件信息語義的文檔級定制向量表示:案件屬性感知文檔編碼器模型中使用層級編碼器對句子和文檔進行向量語義化表示,層級編碼器是由句子級編碼器與文檔級編碼器組成構(gòu)建的模型,在模型中,提出句子級選擇性編碼策略、案件屬性感知的文檔級選擇性編碼策略,最后通過案件傾向性聯(lián)合注意力機制獲得最終的涉案新聞文本的語義向量,通過編碼得到最終的語義向量;
Step4、利用KL損失函數(shù)訓練模型參數(shù),構(gòu)建案句子提取器模型,通過句子提取器模型抽取摘要;
步驟Step3的具體步驟如下:
Step3.1、句子級選擇性編碼策使用BiGRU網(wǎng)絡逐個單詞地讀取句子直到結(jié)尾,模型分別從左到右與從右到左讀取句子sj中的單詞(x1,x2,...xn)的詞嵌入,獲得句子級編碼層的隱層狀態(tài)hi,在閱讀了句子sj的單詞之后,通過串聯(lián)最后一個前向和后向的GRU隱層向量構(gòu)造了它的句子級向量表示句子編碼層使用選擇機制過濾文本重要信息,句子選擇編碼層使用句子詞向量和句子表示向量作為輸入,并輸出selectSTi,然后重新表示生成隱層向量通過串聯(lián)新產(chǎn)生的最后一個前向和后向的GRU隱層向量拼接構(gòu)造句子選擇性編碼層的句子級表示句子sj的文檔級表示si是前向和后向隱層向量的拼接,最后將此新序列用作下一案件屬性感知文檔編碼器的輸入,
其中為從左到右讀取單詞的詞嵌入獲得的前向隱層向量狀態(tài),為從右到左讀取單詞的詞嵌入獲得的反向隱層向量狀態(tài),為第j個句子的第i個單詞;為最后一個前向隱層向量表征,為后向隱層向量表征,為句子級向量表征用于表示句子的含義;Ws和Us是權(quán)重矩陣,bs是偏差矢量,σ表示非線性激活函數(shù),selectSTi為句子選擇門向量表征;⊙是點乘法,是BiGRU編碼器的輸出,代表單詞的含義和上下文信息;為含有重要信息的句子隱層向量表征,分別為前向和反向的GRU隱層向量表征,為含有重要信息的句子級表示;為文檔級編碼層的前向隱層向量表征,為文檔級編碼層的反向隱層向量表征;si為文檔級向量表征用于表示文檔的含義;
Step3.2、考慮涉案新聞文本數(shù)據(jù)的特點,本發(fā)明提出了一種案件信息屬性感知的選擇策略,從具有不同案件屬性信息庫中選擇出重要信息;案件屬性感知文檔級選擇性編碼策略過Step2.1節(jié)中案件信息庫表示Ci和Step3.1文檔級表示si作為輸入構(gòu)建感知案件信息屬性的定制表示,并輸出門向量select_gate_si,然后重新表示感知案件屬性選擇性編碼層的文檔級表示向量si′,
select_gate_si=σ(WaCi+Uasi+ba) (7)
si′=si⊙select_gate_si (8)
其中Wa和Ua是權(quán)重矩陣,ba是偏差矢量,σ表示非線性激活函數(shù),si為文檔級向量表示,Ci為案件信息庫向量表示,select_gate_si為感知案件信息屬性的選擇門向量表征;si′為感知案件屬性的文檔級向量表征;
Step3.3、對于特定領(lǐng)域數(shù)據(jù),如涉案新聞文本,在抽取摘要句時,含有領(lǐng)域知識的文本數(shù)據(jù)會有自己特有的語義信息,因此,在預測輸出摘要時,要考慮案件信息屬性的信息Ci,以獲得更傾向于涉案新聞語義信息,案件傾向性聯(lián)合注意力網(wǎng)絡通過感知案件屬性選擇性編碼層的文檔級表示向量si′與案件信息庫信息表示向量Ci作為輸入構(gòu)建更傾向于案件信息語義的文檔級定制向量表示
其中si′是感知案件屬性文檔級選擇性編碼器的輸出用于表示文檔的含義,Ci是案件信息庫編碼器的輸出用于表示不同涉案新聞文本的關(guān)鍵信息,其中Wn、Un和Mn是權(quán)重矩陣,softmax是歸一化操作,是求和函數(shù),為傾向于案件信息語義的文檔級定制向量表征。
該專利技術(shù)資料僅供研究查看技術(shù)是否侵權(quán)等信息,商用須獲得專利權(quán)人授權(quán)。該專利全部權(quán)利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權(quán)行為。如果您想購買此專利、獲得商業(yè)授權(quán)和技術(shù)合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010980726.1/1.html,轉(zhuǎn)載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種LNG船液穹甲板分段的同胎建造方法
- 下一篇:一種金屬管加工冷卻裝置





