[發明專利]一種金文語義識別方法和系統在審
| 申請號: | 202010794969.6 | 申請日: | 2020-08-10 |
| 公開(公告)號: | CN112036189A | 公開(公告)日: | 2020-12-04 |
| 發明(設計)人: | 李婧;梁循 | 申請(專利權)人: | 中國人民大學 |
| 主分類號: | G06F40/30 | 分類號: | G06F40/30;G06F16/36;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 北京紀凱知識產權代理有限公司 11245 | 代理人: | 孫楠 |
| 地址: | 100872 *** | 國省代碼: | 北京;11 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 金文 語義 識別 方法 系統 | ||
1.一種金文語義識別方法,其特征在于,包括以下步驟:
S1采用金文訓練集對BERT模型進行預訓練,得到金文增強語境向量;
S2將所述金文增強語境向量帶入BiLSTM模型,得到表征金文句子上下文信息的金文隱向量矩陣H;
S3根據所述金文隱向量矩陣H對金文進行語義角色識別和語義依存關系識別;
S4根據金文語義角色標簽和語義依存關系建立金文知識圖譜;
S5將待識別的金文帶入所述金文知識圖譜中進行識別。
2.如權利要求1所述的金文語義識別方法,其特征在于,所述步驟S1中金文增強語境向量的獲得方法,包括以下步驟:
S1.1通過爬蟲程序爬取多個HTML界面,通解析所述HTML界面獲得金文的編號、器名和譯文,對獲取的金文進行預處理獲得金文訓練集;
S1.2根據BERT模型生成初始輸入矩陣X’;
S1.3將自注意力Attention機制拓展為多頭注意力機制,并采用下式對所述初始輸入矩陣X’進行更新:
Multihead(Q,K,V)=concat(head1,…,headh)Wo
where headi=Attention(QWiQ,KWiK,VWiV)
其中,Q,K,V是X經過不同線性轉換的輸出,是K的維度用來縮放點積,WiQ,WiK,WiV是Q,K,V對應的參數矩陣,Wo是多頭注意力拼接后的參數矩陣,h是多頭注意力的頭數,T是矩陣轉置;
S1.4將所述金文訓練集帶入所述多頭注意力機制中對所述初始輸入矩陣X’進行訓練,得到金文增強語境向量X。
3.如權利要求1所述的金文語義識別方法,其特征在于,所述步驟S2中金文隱向量矩陣H的獲取方法為:
將所述金文增強語境向量帶入單向長短期記憶神經網絡單元,將所述單向長短期記憶神經網絡單元拓展為雙向長短期記憶神經網絡單元,采用下式獲得當前詞的隱向量:
其中,是句子正向時的詞xt對應的隱向量,句子逆向時單詞xt對應的隱向量,f()是激活函數,是向量拼接;遍歷句子中的所有詞獲得金文隱向量矩陣H,b是偏置向量。
4.如權利要求1所述的金文語義識別方法,其特征在于,所述步驟S3中通過建立語義角色標簽轉移矩陣對金文進行語義角色識別;通過指針網絡建立金文之間的相互依存關系,并根據依存關系標簽確定所述依存關系的類型,從而對金文進行語義依存關系識別。
5.如權利要求4所述的金文語義識別方法,其特征在于,所述步驟S3中對金文進行語義角色識別的方法,包括以下步驟:
S3.1將所述金文隱向量矩陣H輸入全連接神經網絡,得到在每個所述語義角色標簽下的概率分數向量,遍歷整個句子得到概率矩陣;
S3.2建立語義角色標簽轉移矩陣,金文增強語境向量X到語義角色標簽向量Y的路徑分數由下式表示:
其中,表示yt-1到yt的標簽轉移分數,為概率矩陣,yt是某一語義角色標簽,對所述路徑分數進行歸一化,獲得初始語義角色標簽轉移矩陣;
S3.3將所述金文訓練集代入所述語義角色初始標簽轉移矩陣進行訓練,將似然函數最大的標簽轉移矩陣作為最終的語義角色標簽轉移矩陣;
S3.4將待語義角色識別的金文輸入所述最終的標簽轉移矩陣,獲得所述路徑得分最高的路徑序列,并對所述路徑序列進行標注。
6.如權利要求5所述的金文語義識別方法,其特征在于,所述語義角色標簽包括:謂詞、人物、時間、輩分氏族、數詞、單位、其余名稱、用途、器物名、否定詞、形容詞、地理位置、方位、程度和虛詞。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于中國人民大學,未經中國人民大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202010794969.6/1.html,轉載請聲明來源鉆瓜專利網。
- 上一篇:一種調控墨蘭花期和開花性狀的方法
- 下一篇:接地配件、接地裝置和變壓器





