[發(fā)明專利]基于神經(jīng)自回歸分布估計的涉案新聞主題模型構建方法及裝置有效
| 申請?zhí)枺?/td> | 202010984648.2 | 申請日: | 2020-09-18 |
| 公開(公告)號: | CN112434212B | 公開(公告)日: | 2021-11-23 |
| 發(fā)明(設計)人: | 毛存禮;梁昊遠;余正濤;郭軍軍;黃于欣;高盛祥 | 申請(專利權)人: | 昆明理工大學 |
| 主分類號: | G06F16/9535 | 分類號: | G06F16/9535;G06F16/951;G06F40/216;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
| 代理公司: | 昆明人從眾知識產(chǎn)權代理有限公司 53204 | 代理人: | 何嬌 |
| 地址: | 650093 云*** | 國省代碼: | 云南;53 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 基于 神經(jīng) 回歸 分布 估計 涉案 新聞 主題 模型 構建 方法 裝置 | ||
本發(fā)明涉及基于神經(jīng)自回歸分布估計的涉案新聞主題模型構建方法及裝置,屬于自然語言處理技術領域。本發(fā)明首先構建涉案新聞數(shù)據(jù)并預處理,得到案件要素庫和涉案詞向量;然后由iDocNADEe模型計算新聞和案件要素的雙向隱狀態(tài);再用案件要素和新聞的雙向隱狀態(tài)構建注意力機制,對新聞隱狀態(tài)加權;接下來利用神經(jīng)自回歸算法和案件要素加權的新聞隱狀態(tài)計算案件要素指導的自回歸條件概率;依據(jù)涉案新聞的自回歸條件概率構建涉案主題模型,并利用涉案新聞主題模型進行涉案新聞檢索。本發(fā)明在困惑度和主題連貫性以及文檔檢索精確率等指標上的表現(xiàn)均優(yōu)于基線模型。
技術領域
本發(fā)明涉及基于神經(jīng)自回歸分布估計的涉案新聞主題模型構建方法及裝置,屬于自然語言處理技術領域。
背景技術
涉案新聞是指與司法案件相關的新聞,準確抽取涉案新聞主題信息對進一步開展涉案新聞檢索、涉案新聞事件分析等研究具有重要價值。概率主題模型是文檔主題抽取、文檔語義表征的有效方式,常用于信息檢索、文本分類或摘要任務。傳統(tǒng)主題模型主要考慮詞頻統(tǒng)計特征,而忽略了文檔中的詞語出現(xiàn)的次序及上下文信息。神經(jīng)主題模型由于能夠獲得文本的深層語義信息,既可以在文本中捕獲詞匯之間的依賴關系,也能利用潛在主題捕獲全局語義信息,有效彌補了傳統(tǒng)主題模型的缺陷,近年來在文本檢索、文本分類、文本摘要等自然語言處理任務中表現(xiàn)出較好的效果。
涉案新聞通常包含了案件名稱、涉案人員、涉案地點、涉案觸發(fā)詞等案件要素,這些案件要素能夠簡潔、準確地描繪一個案件的重要特征。由此可見,涉案新聞主題分析任務的關鍵在于分析主題詞與案件之間的關聯(lián)關系,以此作為先驗知識指導文本中詞語的主題分布和文本的主題表征。然而,針對通用文檔建模的神經(jīng)主題模型不能將案件要素作為先驗知識來幫助提升涉案新聞文本中詞語主題分布的準確性。
發(fā)明內容
為解決上述問題,本發(fā)明提供了基于神經(jīng)自回歸分布估計的涉案新聞主題模型構建方法及裝置,本發(fā)明在困惑度、主題連貫性以及文檔檢索精確率等指標上表現(xiàn)均優(yōu)于基線模型,精確率普遍都有所提升。
第一方面,本發(fā)明提供一種基于神經(jīng)自回歸分布估計的涉案新聞主題模型構建方法,首先構建涉案新聞數(shù)據(jù)并預處理,得到案件要素庫和涉案詞向量;然后由iDocNADEe模型計算新聞和案件要素的雙向隱狀態(tài);再用案件要素和新聞的雙向隱狀態(tài)構建注意力機制,對新聞隱狀態(tài)加權;接下來利用神經(jīng)自回歸算法和案件要素加權的新聞隱狀態(tài)計算案件要素指導的自回歸條件概率;依據(jù)涉案新聞的自回歸條件概率構建涉案主題模型,并利用涉案新聞主題模型進行涉案新聞檢索。
其中,所述構建涉案新聞數(shù)據(jù)并預處理,得到案件要素庫和涉案詞向量包括如下:
對涉案新聞和案件本體進行分析,根據(jù)其涉案人名、地名、事件描述以及案件觸發(fā)詞案件特征構建案件要素庫作為模型的涉案外部知識;
利用裁判文書數(shù)據(jù)、涉案新聞數(shù)據(jù)以及word2vec算法預訓練涉案領域的詞向量作為模型的涉案先驗知識。
其中,由iDocNADEe模型計算新聞和案件要素的雙向隱狀態(tài)具體包括:
不同于iDocNADEe的輸入,將新聞分別表示為詞序列v以及新聞中包含的案件要素序列k;
利用詞序列v、案件要素序列k以及iDocNADEe模型和雙向語言模型的計算方式,結合作為涉案先驗知識的涉案領域詞向量計算涉案新聞的雙向隱狀態(tài)以及新聞中包含的案件要素的雙向隱狀態(tài);
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于昆明理工大學,未經(jīng)昆明理工大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業(yè)授權和技術合作,請聯(lián)系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010984648.2/2.html,轉載請聲明來源鉆瓜專利網(wǎng)。
- 上一篇:一種復頻超聲振動加工裝置
- 下一篇:一種手持式導線打圈鉗
- 用于治療支氣管樹的系統(tǒng)、組件和方法
- 一種頸部神經(jīng)信號記錄方法
- 用于在激活褐色脂肪組織時抑制神經(jīng)的方法和裝置
- 一種神經(jīng)元硬件裝置及用這種裝置模擬脈沖神經(jīng)網(wǎng)絡的方法
- 神經(jīng)移植物及應用其的神經(jīng)移植物系統(tǒng)
- 一種神經(jīng)疏通緩解裝置
- 神經(jīng)移植物及應用其的神經(jīng)移植物系統(tǒng)
- 一種模擬神經(jīng)網(wǎng)芯片的設計方法及模擬神經(jīng)網(wǎng)芯片
- 神經(jīng)網(wǎng)絡的剪枝方法、裝置、設備及存儲介質
- 一套無人機神經(jīng)網(wǎng)絡控制用的人工神經(jīng)元模型





