[發明專利]一種結合文檔關鍵信息的句子級中文事件檢測的方法在審
| 申請號: | 202110801337.2 | 申請日: | 2021-07-15 |
| 公開(公告)號: | CN113505200A | 公開(公告)日: | 2021-10-15 |
| 發明(設計)人: | 王繼民;蔣明威;王飛 | 申請(專利權)人: | 河海大學 |
| 主分類號: | G06F16/33 | 分類號: | G06F16/33;G06F16/35;G06F40/211;G06F40/216;G06F40/289;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 南京蘇高專利商標事務所(普通合伙) 32204 | 代理人: | 張華蒙 |
| 地址: | 210024 *** | 國省代碼: | 江蘇;32 |
| 權利要求書: | 查看更多 | 說明書: | 查看更多 |
| 摘要: | |||
| 搜索關鍵詞: | 一種 結合 文檔 關鍵 信息 句子 中文 事件 檢測 方法 | ||
1.一種結合文檔關鍵信息的句子級中文事件檢測的方法,其特征在于,包括如下步驟:
1)使用BIO標注方法對中文句子中每個字符進行標注;
2)使用TextRank算法獲取文檔中關鍵句子;
3)利用BERT中文預訓練模型獲取待檢測句子和所在文檔的向量表示;拼接句子向量和文檔向量生成檢測模型輸入向量;利用模型實例進行預測得到句子中的事件觸發詞類型。
2.根據權利要求1所述的一種結合文檔關鍵信息的句子級中文事件檢測的方法,其特征在于,所述的步驟1)中,具體包括如下步驟:
1.1)對語料集以文檔為單位進行分詞斷句預處理;將每篇文檔的內容以句號、感嘆號、問號三個標點符號為分割符進行句子切分;
1.2)使用BIO標注方法對分割后的句子的觸發詞進行標注;BIO標注方法用B-X、I-X或O這三種方式對每個中文字進行標注;其中,B-X表示當前字符是觸發詞的開始,X表示當前觸發詞類型;I-X表示當前字符是觸發詞的中間或結尾;O表示當前不屬于任何類型。
3.根據權利要求2所述的一種結合文檔關鍵信息的句子級中文事件檢測的方法,其特征在于,所述的步驟2)中,具體包括如下步驟:
對文檔中所有的句子的權重進行標準化并排序,選擇權重和超過指定閾值r的句子作為文檔的關鍵句;設一個文檔有n個句子,TextRank計算得到的每個句子權重為{k1’,k2,…,kn},對權重進行標準化,得到第i個句子的標準化權重為:
對wi進行排序,權重和大于r,r是常量值;前k個句子作為文檔的關鍵句;把文檔的k個關鍵句按照它們在文檔中出現的順序連接成一個句子,構成文檔的關鍵信息句。
4.根據權利要求3所述的一種結合文檔關鍵信息的句子級中文事件檢測的方法,其特征在于,所述的步驟3)中,BERT輸入由詞向量、分割向量和位置向量相加總和組成;其中,詞向量是BERT模型通過查詢字向量表將文本中每個字轉化為一維字向量;分割向量表示字所屬的句子,通過不同的標記進行標注,BERT模型對不同位置的字/詞分別附加一個不同的向量以作區分,具體包括如下步驟:
3.1)句子的字符向量表示;利用BERT中文預訓練模型獲取句子中每個字符的向量表示;每個句子由若干個字符組成,表示為:
S={c1,c2,...,ci,....,cn} (1)
其中ci表示第i個字符,n表示一句話由n個字符組成;BERT中文預訓練模型需要在每句話開頭加入[CLS],句子末尾加入[SEP];最終得到BERT中文預訓練模型的輸入序列:
S={[CLS],c1,c2,...,ci,....,cn,[SEP]} (2)
BERT中文預訓練模型的輸出為每個字符的編碼,每個字符的編碼長度為m維度,即句子中字符的向量表示為m維的向量;對一個輸入句子,模型輸出為(n+2)*m的向量,如下所示:
其中,E[CLS],E[SEP]為BERT模型輸出的符號CLS和SEP的向量表示;
3.2)文檔關鍵信息句向量表示;文檔關鍵信息句向量是一個m維的向量,該向量通過關鍵信息句所包含的字符的向量進行加權處理得到;使用全局加權操作獲取文檔關鍵信息句向量,即對句子中包含的所有字符的根據其權重進行計算獲得最終的向量;假設公式(3)中E為文檔關鍵信息句中每個字符的向量表示構成的向量;去除E[CLS]和E[SEP]剩下n*m維向量;假設Ei對應的字符ci屬于文檔前k個關鍵句中的sj,且關鍵句sj的標準權重為wj,則E中字符ci的權重為wj,記為wci,Ei的權重也為wci;則關鍵信息句的向量Ekey為:
3.3)構建模型訓練數據集;
模型的輸入包含p個節點,每個結點對應待檢測句子中的一個字符,即待檢測的句子最多p個字符;每個結點的是一個2*m維的向量,由兩部分組成:m維的文檔關鍵信息向量和對應字符的m維的向量表示;對如公式(1)的待檢測句子,其字符向量表示如公式(3),假設所在文檔的關鍵信息句向量為Ekey,則拼接形成的模型輸入為:
((Ekey,E1),(Ekey,E2),…,(Ekey,Ep)) (4)
第i個節點的輸入向量為(Ekey,Ei);如果待檢測的句子超過p個字符,則截掉尾端保留p個字符,如果待檢測的句子不足p個字符,則每個位置采用E為m維的0向量描述;
模型輸出為句子的標注,即在步驟1.2)中標注的結果;對不足p個字符時,步長的位置采用O標注,即不屬于任何類型;
3.4)構建并訓練BiLSTM-CRF模型,獲得帶模型參數的模型實例。
5.根據權利要求4所述的一種結合文檔關鍵信息的句子級中文事件檢測的方法,其特征在于,所述的步驟3.4)中,構建并訓練BiLSTM-CRF模型,獲得帶模型參數的模型實例,包括如下兩個步驟:
3.41)模型結構為BiLSTM-CRF;
BiLSTM-CRF模型采用步驟3.3)描述拼接向量作為輸入,以句子整體標注正確的概率為作為輸出;BiLSTM-CRF是在雙向LSTM后加上CRF層,將事件觸發詞分類問題轉變成序列標注問題;模型主要分為輸入層、編碼層、CRF輸出層;
BiLSTM的輸入包含p個節點,每個結點為2*m維的向量,即模型的輸入為p*2*m的二維向量;LSTM神經元數為c個,因此,BiLSTM輸出為p*c二維向量;在BiLSTM輸出層后存在一個Sotfmax層,計算每個字符屬于各標簽的概率;
3.42)模型訓練
將步驟3.3)生成的訓練數據集按照比例劃分成訓練集和測試集,對模型進行訓練,得到帶模型參數的模型實例。
該專利技術資料僅供研究查看技術是否侵權等信息,商用須獲得專利權人授權。該專利全部權利屬于河海大學,未經河海大學許可,擅自商用是侵權行為。如果您想購買此專利、獲得商業授權和技術合作,請聯系【客服】
本文鏈接:http://www.szxzyx.cn/pat/books/202110801337.2/1.html,轉載請聲明來源鉆瓜專利網。
- 信息記錄介質、信息記錄方法、信息記錄設備、信息再現方法和信息再現設備
- 信息記錄裝置、信息記錄方法、信息記錄介質、信息復制裝置和信息復制方法
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄裝置、信息再現裝置、信息記錄方法、信息再現方法、信息記錄程序、信息再現程序、以及信息記錄介質
- 信息記錄設備、信息重放設備、信息記錄方法、信息重放方法、以及信息記錄介質
- 信息存儲介質、信息記錄方法、信息重放方法、信息記錄設備、以及信息重放設備
- 信息存儲介質、信息記錄方法、信息回放方法、信息記錄設備和信息回放設備
- 信息記錄介質、信息記錄方法、信息記錄裝置、信息再現方法和信息再現裝置
- 信息終端,信息終端的信息呈現方法和信息呈現程序
- 信息創建、信息發送方法及信息創建、信息發送裝置





